第一部分 大數據時代的思維變革 03 更好:不是因果關係,而是相關關係

普林斯頓大學心理學專家,同時也是2002年諾貝爾經濟學獎得主丹尼爾·卡尼曼(Daniel Kahneman)就是用這個例子證明了人有兩種思維模式。第一種是不費力的快速思維,通過這種思維方式幾秒鐘就能得出結果;另一種是比較費力的慢性思維,對於特定的問題,就是需要考慮到位。

大數據洞察

「理論的終結」似乎暗示著,儘管理論仍存在於像物理、化學這樣的學科里,但大數據分析不需要成形的概念。這實在荒謬。

首先,我們的直接願望就是了解因果關係。即使無因果聯繫存在,我們也還是會假定其存在。研究證明,這只是我們的認知方式,與每個人的文化背景、生長環境以及教育水平是無關的。當我們看到兩件事情接連發生的時候,我們會習慣性地從因果關係的角度來看待它們。看看下面的三句話:「弗雷德的父母遲到了;供應商快到了;弗雷德生氣了。」

不過,科學家已經克服了用實驗來證明因果關係的難題。實驗是通過是否有誘因這兩種情況,分別來觀察所產生的結果是不是和真實情況相符,如果相符就說明確實存在因果關係。這個衡量假說的驗證情況控制得越嚴格,你就會發現因果關係越有可能是真實存在的。

在大數據時代,通過建立在人的偏見基礎上的關聯物監測法已經不再可行,因為資料庫太大而且需要考慮的領域太複雜。幸運的是,許多迫使我們選擇假想分析法的限制條件也逐漸消失了。我們現在擁有如此多的數據,這麼好的機器計算能力,因而不再需要人工選擇一個關聯物或者一小部分相似數據來逐一分析了。複雜的機器分析能為我們辨認出誰是最好的代理,就像在谷歌流感趨勢中,計算機把檢索詞條在5億個數學模型上進行測試之後,準確地找出了哪些是與流感傳播最相關的詞條。

一個東西要出故障,不會是瞬間的,而是慢慢地出問題的。通過收集所有的數據,我們可以預先捕捉到事物要出故障的信號,比方說發動機的嗡嗡聲、引擎過熱都說明它們可能要出故障了。系統把這些異常情況與正常情況進行對比,就會知道什麼地方出了毛病。通過儘早地發現異常,系統可以提醒我們在故障之前更換零件或者修復問題。通過找出一個關聯物並監控它,我們就能預測未來。

大數據先鋒

沃爾瑪,請把蛋撻與颶風用品擺在一起

沃爾瑪是世界上最大的零售商,擁有超過200萬的員工,銷售額約4500億美元,比大多數國家的國內生產總值還多。在網路帶來巨多數據之前,沃爾瑪在美國企業中擁有的數據資源應該是最多的。

在20世紀90年代,零售鏈通過把每一個產品記錄為數據而徹底改變了零售行業。沃爾瑪可以讓供應商監控銷售速率、數量以及存貨的情況。沃爾瑪通過打造透明度來迫使供應商照顧好自己的物流。在許多情況下,沃爾瑪不接受產品的「所有權」,除非產品已經開始銷售,這樣就避免了存貨的風險也降低了成本。實際上,沃爾瑪運用這些數據使其成為了世界上最大的「寄售店」。

倘若得到正確分析,歷史數據能夠解釋什麼呢?零售商與天睿資訊(Teradata) 專業的數字統計員一起研究發現了有趣的相關關係。2004年,沃爾瑪對歷史交易記錄這個龐大的資料庫進行了觀察,這個資料庫記錄的不僅包括每一個顧客的購物清單以及消費額,還包括購物籃中的物品、具體購買時間,甚至購買當日的天氣。

沃爾瑪公司注意到,每當在季節性颶風來臨之前,不僅手電筒銷售量增加了,而且POP-Tarts蛋撻(美式含糖早餐零食)的銷量也增加了。因此,當季節性風暴來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,以方便行色匆匆的顧客從而增加銷量。

在社會環境下尋找關聯物只是大數據分析法採取的一種方式。同樣有用的一種方法是,通過找出新種類數據之間的相互聯繫來解決日常需要。比方說,一種稱為預測分析法的方法就被廣泛地應用於商業領域,它可以預測事件的發生。這可以指一個能發現可能的流行歌曲的演算法系統——音樂界廣泛採用這種方法來確保它們看好的歌曲真的會流行;也可以指那些用來防止機器失效和建築倒塌的方法。現在,在機器、發動機和橋樑等基礎設施上放置感測器變得越來越平常了,這些感測器被用來記錄散發的熱量、振幅、承壓和發出的聲音等。

例如,Kaggle,一家為所有人提供數據挖掘競賽平台的公司,舉辦了關於二手車的質量競賽。二手車經銷商將二手車數據提供給參加比賽的統計學家,統計學家們用這些數據建立一個演算法系統來預測經銷商拍賣的哪些車有可能出現質量問題。相關關係分析表明,橙色的車有質量問題的可能性只有其他車的一半。

在小數據世界中,相關關係也是有用的,但在大數據的背景下,相關關係大放異彩。通過應用相關關係,我們可以比以前更容易、更快捷、更清楚地分析事物。

快速思維模式使人們偏向用因果聯繫來看待周圍的一切,即使這種關係並不存在。這是我們對已有的知識和信仰的執著。在古代,這種快速思維模式是很有用的,它能幫助我們在信息量缺乏卻必須快速做出決定的危險情況下化險為夷。但是,通常這種因果關係都是並不存在的。

2008年,《連線》雜誌主編克里斯·安德森(Chris Anderson)就指出:「數據爆炸使得科學的研究方法都落伍了。」後來,他又在《拍位元組時代》(The Petabyte Age)的封面故事中講到,大量的數據從某種程度上意味著「理論的終結」。安德森也表示,用一系列的因果關係來驗證各種猜想的傳統研究範式已經不實用了,如今它已經被無需理論指導的純粹的相關關係研究所取代。

不像因果關係,證明相關關係的實驗耗資少,費時也少。與之相比,分析相關關係,我們既有數學方法,也有統計學方法,同時,數字工具也能幫我們準確地找出相關關係。

除了僅僅依靠相關關係,專家們還會使用一些建立在理論基礎上的假想來指導自己選擇適當的關聯物。這些理論就是一些抽象的觀點,關於事物是怎樣運作的。然後收集與關聯物相關的數據來進行相關關係分析,以證明這個關聯物是否真的合適。如果不合適,人們通常會固執地再次嘗試,因為擔心可能是數據收集的錯誤,而最終卻不得不承認一開始的假想甚至假想建立的基礎都是有缺陷和必須修改的。這種對假想的反覆試驗促進了學科的發展。但是這種發展非常緩慢,因為個人以及團體的偏見會蒙蔽我們的雙眼,導致我們在設立假想、應用假想和選擇關聯物的過程中犯錯誤。總之,這是一個煩瑣的過程,只適用於小數據時代。

考慮到這些,如果把以確鑿數據為基礎的相關關係和通過快速思維構想出的因果關係相比的話,前者就更具有說服力。但在越來越多的情況下,快速清晰的相關關係分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中體現為通過嚴格控制的實驗來驗證的因果關係,而這必然是非常耗時耗力的。

林登做了一個關於評論家所創造的銷售業績和計算機生成內容所產生的銷售業績的對比測試,結果他發現兩者之間的業績相差甚遠。他解釋說,通過數據推薦產品所增加的銷售遠遠超過書評家的貢獻。計算機可能不知道為什麼喜歡海明威作品的客戶會購買菲茨傑拉德的書。但是這似乎並不重要,重要的是銷量。最後,編輯們看到了銷售額分析,亞馬遜也不得不放棄每次的在線評論,最終書評組被解散了。林登回憶說:「書評團隊被打敗、被解散,我感到非常難過。但是,數據沒有說謊,人工評論的成本是非常高的。」

相關關係分析本身意義重大,同時它也為研究因果關係奠定了基礎。通過找出可能相關的事物,我們可以在此基礎上進行進一步的因果關係分析,如果存在因果關係的話,我們再進一步找出原因。這種便捷的機制通過嚴格的實驗降低了因果分析的成本。我們也可以從相互聯繫中找到一些重要的變數,這些變數可以用到驗證因果關係的實驗中去。

Aviva的預測模型是由德勤諮詢公司發明的,公司覺得這可以用來發現健康隱患。其他保險公司如英國保誠保險有限公司(Prudentia)和美國國際集團(AIG)都承認它們也在考慮類似的方法。好處就是,申請者不再需要提供血液和尿液樣本了,因為大家都不太喜歡做這個事情。

大數據時代將要釋放出的巨大價值使得我們選擇大數據的理念和方法不再是一種權衡,而是通往未來的必然改變。但是在我們到達目的地之前,我們有必要了解怎樣才能到達。高科技行業里的很多人認為是依靠新的工具,從高速晶元到高效軟體等。當然,這可以理解為因為他們自己是工具創造者。這些問題固然重要,但不是我們需要考慮的問題。大數據趨勢的深層原因,就是海量

上一章目錄+書簽下一頁