第二部分 大數據時代的商業變革 05 價值:「取之不盡,用之不竭」的數據創新

大數據的力量

與僱用人所需要花費的成本相比較,它釋放出的價值是非常巨大的。每天完成的ReCaptcha超過2億,按平均每10秒輸入一次的話,一天加起來一共是50萬個小時,而2012年美國的最低工資是每小時7.25美元。從市場的角度來看,解疑計算機不能識別的單詞每天需要花費約350萬美元,或者說每年需要花費10億多美元。馮·安設計的這個系統做到了這一點,並且,沒有花一分錢。

大數據先鋒

丹麥癌症協會:手機是否增加致癌率

丹麥擁有1985年手機推出以來所有手機用戶的資料庫。這項研究分析了1990年至2007年間擁有手機的用戶(企業用戶和其他社會經濟數據不可用的用戶除外),共涉及358403人。該國同時記錄了所有癌症患者的信息,在那期間共有10729名中樞神經系統腫瘤患者。結合這兩個數據集後,研究人員開始尋找兩者的關係:手機用戶是否比非手機用戶顯示出較高的癌症發病率?使用手機時間較長的用戶是否比時間較短的用戶更容易患上癌症?

儘管研究的規模很大,數據卻沒有出現絲毫混亂或含糊不清。為了滿足醫療或商業的目的,兩個數據集都採用了嚴格的質量標準,信息的收集不存在偏差。事實上,數據是在多年前就已經生成的,當時的目的與這項研究毫不相關。最重要的是,這項研究並沒有基於任何樣本,卻很接近「樣本=總體」的準則,即包括了幾乎所有癌症患者和移動用戶。數據包含了所有的情況,這意味著研究人員掌握了各種亞人群組信息,比如吸煙人群。

最後,研究沒有發現使用行動電話和癌症風險增加之間存在任何關係。因此,當2011年10月研究結果在《英國醫學雜誌》上發布時,並未在媒體中引起任何轟動。但是如果兩者之間存在關聯的話,它可能馬上就會登上世界各地的頭版頭條,而「重組數據」也可能會隨之名聲大噪。

大數據洞察

數據價值的關鍵是看似無限的再利用,即它的潛在價值。收集信息固然至關重要,但還遠遠不夠,因為大部分的數據價值在於它的使用,而不是佔有本身。

然而,並非所有的數據都會貶值。有些公司提倡儘可能長時間地保存數據,即使監管部門或公眾要求它們短時間內刪除或隱匿這些信息。這就解釋了為什麼一直以來,谷歌都拒絕將互聯網協議地址從舊的搜索查詢中完全刪除(它只是在18個月後刪除了最後四位數以隱匿搜索查詢)。谷歌希望得到每年的同比數據,如假日購物搜索等。此外,通過了解搜索者的位置,可以幫助改善搜索結果的相關性。例如,很多紐約人都會搜索「火雞」,但經常會搜索到與「火雞」無關的關於「土耳其」的網頁(英文中「火雞」與「土耳其」同為turkey)。通過演算法可以將他們想要查看的頁面放在排名靠前的位置,來方便其他紐約人查找。即使數據用於基本用途的價值會減少,但潛在價值卻依然強大。

ReCaptcha的故事強調了數據再利用的重要性。隨著大數據的出現,數據的價值正在發生變化。

這裡所說的「所有數據」包含了那些最原始的、看似最平凡的信息單位。想一想工廠機器上熱感測器的讀數,GPS坐標上的實時數據流,某一輛或者60000輛車的加速度感測器讀數和燃料水平。再想想數十億舊的搜索查詢,或者過去數年美國每趟商務航班上每個座位的價格。

數據就像一個神奇的鑽石礦,當它的首要價值被發掘後仍能不斷給予。它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。

下一章,我們將考察數據的實際運用和日益崛起的大數據行業。

信息對於市場交易而言是必不可少的。數據使價格發現成為可能,比如眾所周知的一點,它是決定生產數量的信號。一些特殊類型的信息也早已在市場上交易,如書籍、文章、音樂、電影以及金融信息(如股票價格)等。這些在過去的幾十年中已經通過個人數據加入資料庫。美國的專業數據經紀人,如安客誠(A)、益百利和艾可飛(Equifax)等,專門負責從數億名消費者中收集個人信息加入綜合檔案。隨著Facebook、Twitter、LinkedIn、Foursquare等社交平台的出現,我們的人脈關係、想法、喜好和日常生活模式也逐漸被加入到巨大的個人信息庫中。

數據創新再利用的一個典型例子是搜索關鍵詞。消費者和搜索引擎之間的瞬時交互形成了一個網站和廣告的列表,實現了那一刻的特定功能。乍看起來,這些信息在實現了基本用途之後似乎變得一文不值。但是,以往的查詢也可以變得非常有價值。有的公司,如數據代理益百利旗下的網頁流量測量公司Hitwise,讓客戶採集搜索流量來揭示消費者的喜好。通過Hitwise營銷人員可以了解到粉紅色是否會成為今夏的潮流色,或者黑色是否會回歸潮流。谷歌整理了一個版本的搜索詞分析,公開供人們查詢,並與西班牙第二大銀行BBVA合作推出了實時經濟指標以及旅遊部門的業務預報服務,這些指標都是基於搜索數據得到的。英國央行通過搜索查詢房地產的相關信息,更好地了解到了住房價格的升降情況。

在Farecast或谷歌這樣的信息公司眼裡,數據開始被視為一個新的生產要素,原始材料在數字流水線的一端輸入,而處理後的信息則從另一端輸出。

數據的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下。明白了這一點,那些創新型企業就能夠提取其潛在價值並獲得潛在的巨大收益。總之,判斷數據的價值需要考慮到未來它可能被使用的各種方式,而非僅僅考慮其目前的用途。在我們強調過多次的例子中這一點體現得非常明顯:Farecast利用機票銷售數據來預測未來的機票價格;谷歌重複使用搜索關鍵詞來監測流感的傳播;麥格雷戈博士用嬰兒的生命體征來預測傳染病的發生;莫里重新利用老船長的日誌而發現了洋流。

【大數據先鋒】

IBM,電動汽車動力與電力供應系統優化預測

Hitwise,通過流量判斷消費者喜好

亞馬遜,讓數據的價值再大一點

移動運營商與數據再利用

谷歌街景與GPS採集

微軟與谷歌的拼寫檢查

谷歌,從大的「噪音」數據中受益

巴諾與NOOK快照

在線教育課程,找到最合適閱讀的論壇帖子

Facebook,從66億到1040億

DataMarket與InfoChimps,提供免費與付費數據

這一切給馮·安這位家裡經營糖果廠的瓜地馬拉人帶來了相當高的知名度,使他能夠在取得博士學位後進入卡內基梅隆大學工作,教授計算機科學;也使他在27歲時獲得了50萬美元的麥克阿瑟基金會「天才獎」。但是,當他意識到每天有這麼多人要浪費10秒鐘的時間輸入這堆惱人的字母,而隨後大量的信息被隨意地丟棄時,他並沒有感到自己很聰明。

微軟也帶著它的Windows Azure DataMarket登上了歷史舞台。它的目標是專註高質量的數據和監督所提供的產品,其方式和蘋果公司監督其應用程序商店中的產品類似。微軟假設,一位銷售主管在準備Excel表格時可能還需要做一份公司內部數據和來自經濟顧問的GDP增長預測的交叉表,那麼她只要點擊想要購買的數據,後者將瞬間出現在她的電腦屏幕上。

數據廢氣可以成為公司的巨大競爭優勢,也可能成為對手的強大進入壁壘。試想,如果一家新上市的公司設計了一個比當今行業領先者(如亞馬遜、谷歌或Facebook等)更優秀的電子商務網站、社交網站或搜索引擎,它也難以同對手競爭,這不僅是因為其經濟規模、網路效應或品牌價值不夠好,而是因為這些公司收集了來自客戶交互的數據廢氣並納入到他們的服務中。一個新的在線教育網站有能力與一個已經具備龐大資料庫並且由此知道什麼最好的對手相抗衡嗎?

大數據先鋒

谷歌街景與GPS採集

在收集數據時強調擴展性方面,谷歌毫無疑問是做得最好的公司之一。其備受爭議的街景汽車不僅拍攝了房屋和道路的照片,還同時採集GPS數據,檢查地圖的信息,甚至還加入了無線網路名稱(以及通過開放無線網路的內容,儘管這可能是非法的)。一輛谷歌街景汽車每時每刻都能積累大量的離散數據流。這些數據之所以具有可擴展性,是因為谷歌不僅將其用於基本用途,而且進行了大量的二次使用。例如,GPS數據不僅優化了其地圖服務,而且對谷歌自動駕駛汽車的運作功不可沒。

這個結果極具指導意義

上一章目錄+書簽下一頁