大數(shù)據(jù)是一個復雜的體系,大數(shù)據(jù)大部分來源于各類信息的轉換。中培大數(shù)據(jù)分析與可視化專家蔣老師認為,在這一轉換過程中,如何確保數(shù)據(jù)的真實,將決定這些數(shù)據(jù)的價值,進而決定著企業(yè)能否用這些數(shù)據(jù)創(chuàng)造出最大的價值。
我們知道,數(shù)據(jù)的源頭是信息,因此,要確保數(shù)據(jù)的真實,首先要確保信息的真實。在當今信息大爆炸的時代,面對各種各樣信息的狂轟濫炸,如何去有針對性的接收那些真實有用的信息,然后將這些信息轉化成為數(shù)據(jù),從而得到真實的數(shù)據(jù),這樣的數(shù)據(jù)才能為企業(yè)的發(fā)展帶來幫助。
很多人常常的影響就是大數(shù)據(jù)是真實而客觀,但現(xiàn)實的結果是,因為在收集整理以及分析過程中的疏失和錯誤,企業(yè)獲得的大數(shù)據(jù)數(shù)據(jù)往往也會是不真實和錯誤的。
企業(yè)為什么常常會有不真實的大數(shù)據(jù),原因就在于大數(shù)據(jù)是由信息經(jīng)過轉換而來,企業(yè)通過對心滾信息進行收集整理,然后通過轉換,形成數(shù)據(jù),一旦企業(yè)在手機信息的過程中采用了虛假的信息,就會導致數(shù)據(jù)的不真實。
此外,企業(yè)對大數(shù)據(jù)的使用雖然應該是全面的,但這里的大數(shù)據(jù)一般指的是核心數(shù)據(jù)。也就是通過對所有的核心數(shù)據(jù)進行全面的營銷和企業(yè)的發(fā)展有用的相關信息。如果收集到的是細枝末葉,無關緊要的信息,那么這些信息即使是真實的,也會導致核心數(shù)據(jù)被稀釋和掩蓋,因此,在信息收集的過程中,一定要有側重,將對企業(yè)最有影響和相關性的信息收集起來,只有這樣,轉換而來的數(shù)據(jù)才會是核心數(shù)據(jù),這樣的數(shù)據(jù)才能讀企業(yè)額發(fā)展真正帶來幫助。否則,企業(yè)的決策者們就會在大量無用的數(shù)據(jù)中不知所措,陷入迷失。
因此,要想獲得真實的數(shù)據(jù),就必須要在信息的收集、整理和分析的整個環(huán)節(jié)確保質量。在信息的手機上,一定要追求第一手資料,盡量避免通過七拼八湊,從別人那里直接拿來作為自己的數(shù)據(jù),這樣的結果是,所收集到的數(shù)據(jù)因為無法體現(xiàn)企業(yè)和產(chǎn)品的特殊性而失靈,從而實質上造成數(shù)據(jù)的失真。
在國內眾多的應用書企業(yè)中,農(nóng)夫山泉可以算得上是一個極富特質的品牌,農(nóng)夫山泉之所以會發(fā)展成為國內最具知名度的品牌之一,企業(yè)對大數(shù)據(jù)收集的真實性嚴苛要求是重要的原因。
在上海程翔結合部的一處小超市的角落,擺放著很多農(nóng)夫山泉,正是這樣一個看似很小的超市,每天卻有農(nóng)夫山泉工作人員前來光顧,他們都是一手信息的采集員,這些信息包括水的擺放位置、狀態(tài)和高度,這些信息通過十張照片記錄下來,這樣的超市,每個工作人員每天需要跑15個,然后在下班之前將反映片區(qū)產(chǎn)品信息的150找照片傳回位于杭州的企業(yè)總部,每個業(yè)務員傳回的信息的總量為10M,這10M的數(shù)據(jù)最終成為該企業(yè)大數(shù)據(jù)中的一小部分。
對大數(shù)據(jù)的收集拉說,這10M的量實在太小了,但在整個農(nóng)夫山泉,卻有超過一萬名業(yè)務員在進行著這樣的數(shù)據(jù)采集工作,其每天的數(shù)據(jù)采集量超過100G,經(jīng)過長時間的累積,就能形成規(guī)模可觀的大數(shù)據(jù),更重要的是,這些數(shù)據(jù)不僅可觀,而且還十分客觀,因為它都是來自于第一手資料。
胡健想知道的問題包括:怎樣擺放水堆更能促進銷售?什么年齡的消費者在水堆前停留更久,他們一次購買的量多大?氣溫的變化讓購買行為發(fā)生了哪些改變?競爭對手的新包裝對銷售產(chǎn)生了怎樣的影響?不少問題目前也可以回答,但它們更多是基于經(jīng)驗,而不是基于數(shù)據(jù)。
2008年開始,業(yè)務員拍攝的照片就這么被收集起來,如果按照數(shù)據(jù)的屬性來分類,“圖片”屬于典型的非關系型數(shù)據(jù),還包括視頻、音頻等。要系統(tǒng)地對非關系型數(shù)據(jù)進行分析是胡健設想的下一步計劃,這是農(nóng)夫山泉在“大數(shù)據(jù)時代”必須邁出的步驟。如果超市、金融公司與農(nóng)夫山泉有某種渠道來分享信息,如果類似圖像、視頻和音頻資料可以系統(tǒng)分析,如果人的位置有更多的方式可以被監(jiān)測到,那么攤開在胡健面前的就是一幅基于人消費行為的畫卷,而描繪畫卷的是一組組復雜的“0、1、1、0”。
SAP全球執(zhí)行副總裁、中國研究院院長孫小群接受《中國企業(yè)家》采訪時表示,企業(yè)對于數(shù)據(jù)的挖掘使用分三個階段,“首先就是要將數(shù)據(jù)清晰透明化,讓大數(shù)據(jù)能夠明確的曾現(xiàn)在人們眼前,能夠看到數(shù)據(jù)越來越多;第二步是可以提問題,可以形成互動,很多支持的工具來幫我們做出實時分析;而3.0時代,信息流來指導物流和資金流,現(xiàn)在數(shù)據(jù)要告訴我們未來,告訴我們往什么地方走。”
關于運輸?shù)臄?shù)據(jù)場景到底有多重要呢?將自己定位成“大自然搬運工”的農(nóng)夫山泉,在全國有十多個水源地。農(nóng)夫山泉把水灌裝、配送、上架,一瓶超市售價2元的550ml飲用水,其中3毛錢花在了運輸上。在農(nóng)夫山泉內部,有著“搬上搬下,銀子嘩嘩”的說法。如何根據(jù)不同的變量因素來控制自己的物流成本,成為問題的核心。
基于上述場景,SAP團隊和農(nóng)夫山泉團隊開始了場景開發(fā),他們將很多數(shù)據(jù)納入了進來:高速公路的收費、道路等級、天氣、配送中心輻射半徑、季節(jié)性變化、不同市場的售價、不同渠道的費用、各地的人力成本、甚至突發(fā)性的需求(比如某城市召開一次大型運動會)。
在沒有數(shù)據(jù)實時支撐時,農(nóng)夫山泉在物流領域花了很多冤枉錢。比如某個小品相的產(chǎn)品(350ml飲用水),在某個城市的銷量預測不到位時,公司以往通常的做法是通過大區(qū)間的調運,來彌補終端貨源的不足。“華北往華南運,運到半道的時候,發(fā)現(xiàn)華東實際有富余,從華東調運更便宜。但很快發(fā)現(xiàn)對華南的預測有偏差,華北短缺更為嚴重,華東開始往華北運。此時如果太湖突發(fā)一次污染事件,很可能華東又出現(xiàn)短缺。”
這種沒頭蒼蠅的狀況讓農(nóng)夫山泉的管理層頭疼不已。在采購、倉儲、配送這條線上,農(nóng)夫山泉特別希望大數(shù)據(jù)獲取解決三個頑癥:首先是解決生產(chǎn)和銷售的不平衡,準確獲知該產(chǎn)多少,送多少;其次,讓400家辦事處、30個配送中心能夠納入到體系中來,形成一個動態(tài)網(wǎng)狀結構,而非簡單的樹狀結構;最后,讓退貨、殘次等問題與生產(chǎn)基地能夠實時連接起來。
“日常運營中,我們會產(chǎn)生銷售、市場費用、物流、生產(chǎn)、財務等數(shù)據(jù),這些數(shù)據(jù)都是通過工具定時抽取到SAP BW或Oracle DM,再通過Business Object展現(xiàn)。”胡健表示,這個“展現(xiàn)”的過程長達24小時,也就是說,在24小時后,物流、資金流和信息流才能匯聚到一起,彼此關聯(lián)形成一份有價值的統(tǒng)計報告。當農(nóng)夫山泉的每月數(shù)據(jù)積累達到3TB時,這樣的速度導致農(nóng)夫山泉每個月財務結算都要推遲一天。更重要的是,胡健等農(nóng)夫山泉的決策者們只能依靠數(shù)據(jù)來驗證以往的決策是否正確,或者對已出現(xiàn)的問題作出糾正,仍舊無法預測未來。
對所有希望擁抱大數(shù)據(jù)的企業(yè)來說,要想用好大數(shù)據(jù),讓大數(shù)據(jù)為企業(yè)帶來實實在在的利益,首先就需要在數(shù)據(jù)的收集階段,保持清醒的頭腦,不要因為盲目崇拜而在大數(shù)據(jù)面前陷入迷失,將一些虛假、錯誤的信息一股腦兒收集起來,讓數(shù)據(jù)收集陷入假大空的怪圈。只有懂得分辨和篩選,在數(shù)據(jù)收集的各個環(huán)節(jié)做到嚴格把關,去偽存真,精益求精,只有這樣,才能獲得真實而優(yōu)質的大數(shù)據(jù),造福于企業(yè)的發(fā)展。