第一部分 大數據時代的思維變革 01 更多:不是隨機樣本,而是全體數據

當數據處理技術已經發生了翻天覆地的變化時,在大數據時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的數據,「樣本=總體」。

實際上,大數據與三個重大的思維轉變有關,這三個轉變是相互聯繫和相互作用的。

「大數據」全在於發現和理解信息內容及信息與信息之間的關係,然而直到最近,我們對此似乎還是難以把握。IBM的資深「大數據」專家傑夫·喬納斯(Jeff Jonas)提出要讓數據「說話」。從某種層面上來說,這聽起來很平常。人們使用數據已經有相當長一段時間了,無論是日常進行的大量非正式觀察,還是過去幾個世紀里在專業層面上用高級演算法進行的量化研究,都與數據有關。

這個情況是顯而易見的。但是如果採用隨機採樣分析法,就無法發現這個情況。而大數據分析通過使用所有比賽的極大數據捕捉到了這個情況。這就像捕魚一樣,開始時你不知道是否能捕到魚,也不知道會捕到什麼魚。

●首先,要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。

●其次,我們樂於接受數據的紛繁複雜,而不再追求精確性。

隨機採樣也需要嚴密的安排和執行。人們只能從採樣數據中得出事先設計好的問題的結果——千萬不要奢求採樣的數據還能回答你突然意識到的問題。所以雖說隨機採樣是一條捷徑,但它也只是一條捷徑。隨機採樣方法並不適用於一切情況,因為這種調查結果缺乏延展性,即調查得出的數據不可以重新分析以實現計畫之外的目的。

大數據先鋒

Xoom與跨境匯款異常交易報警

Xoom是一個專門從事跨境匯款業務的公司,它得到了很多擁有大數據的大公司的支持。它會分析一筆交易的所有相關數據。2011年,它注意到用「發現卡」從新澤西州匯款的交易量比正常情況多一些,系統於是啟動報警。Xoom公司的首席執行官約翰·孔澤(John Kunze)解釋說:「這個系統關注的是不應該出現的情況。」單獨來看,每筆交易都是合法的,但是事實證明這是一個犯罪集團在試圖詐騙。而發現異常的唯一方法就是,重新檢查所有的數據,找出樣本分析法錯過的信息。

所以,我們現在經常會放棄樣本分析這條捷徑,選擇收集全面而完整的數據。我們需要足夠的數據處理和存儲能力,也需要最先進的分析技術。同時,簡單廉價的數據收集方法也很重要。過去,這些問題中的任何一個都很棘手。在一個資源有限的時代,要解決這些問題需要付出很高的代價。但是現在,解決這些難題已經變得簡單容易得多。曾經只有大公司才能做到的事情,現在絕大部分的公司都可以做到了。

在某些方面,我們依然沒有完全意識到自己擁有了能夠收集和處理更大規模數據的能力。我們還是在信息匱乏的假設下做很多事情,建立很多機構組織。我們假定自己只能收集到少量信息,結果就真的如此了。這是一個自我實現的過程。我們甚至發展了一些使用儘可能少的信息的技術。別忘了,統計學的一個目的就是用儘可能少的數據來證實儘可能重大的發現。事實上,我們形成了一種習慣,那就是在我們的制度、處理過程和激勵機制中儘可能地減少數據的使用。為了理解大數據時代的轉變意味著什麼,我們需要首先回顧一下過去。

大數據先鋒

穿孔卡片與美國人口普查

美國在1880年進行的人口普查,耗時8年才完成數據匯總。因此,他們獲得的很多數據都是過時的。1890年進行的人口普查,預計要花費13年的時間來匯總數據。即使不考慮這種情況違反了憲法規定,它也是很荒謬的。然而,因為稅收分攤和國會代表人數確定都是建立在人口的基礎上的,所以必須要得到正確的數據,而且必須是及時的數據。

美國人口普查局面臨的問題與當代商人和科學家遇到的問題很相似。很明顯,當他們被數據淹沒的時候,已有的數據處理工具已經難以應付了,所以就需要有更多的新技術。

後來,美國人口普查局就和當時的美國發明家赫爾曼·霍爾瑞斯(Herman Hollerith)簽訂了一個協議,用他的穿孔卡片製表機來完成1890年的人口普查。

經過大量的努力,霍爾瑞斯成功地在1年時間內完成了人口普查的數據匯總工作。這簡直就是一個奇蹟,它標誌著自動處理數據的開端,也為後來IBM公司的成立奠定了基礎。但是,將其作為收集處理大數據的方法依然過於昂貴。畢竟,每個美國人都必須填一張可製成穿孔卡片的表格,然後再進行統計。這麼麻煩的情況下,很難想像如果不足十年就要進行一次人口普查應該怎麼辦。但是,對於一個跨越式發展的國家而言,十年一次的人口普查的滯後性已經讓普查失去了大部分意義。

以人口普查為例。據說古代埃及曾進行過人口普查,《舊約》和《新約》中對此都有所提及。那次由奧古斯都愷撒主導實施的人口普查,提出了「每個人都必須納稅」,這使得約瑟夫和瑪麗搬到了耶穌的出生地伯利恆。1086年的《末日審判書》(The Doomsday Book)對當時英國的人口、土地和財產做了一個前所未有的全面記載。皇家委員穿越整個國家對每個人、每件事都做了記載,後來這本書用《聖經》中的《末日審判書》命名,因為每個人的生活都被赤裸裸地記載下來的過程就像接受「最後的審判」一樣。

更糟糕的是,隨機採樣不適合考察子類別的情況。因為一旦繼續細分,隨機採樣結果的錯誤率會大大增加。這很容易理解。倘若你有一份隨機採樣的調查結果,是關於1000個人在下一次競選中的投票意向。如果採樣時足夠隨機,這份調查的結果就有可能在3%的誤差範圍內顯示全民的意向。但是如果這個3%左右的誤差本來就是不確定的,卻又把這個調查結果根據性別、地域和收入進行細分,結果是不是越來越不準確呢?用這些細分過後的結果來表現全民的意願,是否合適呢?

三百多年前,一個名叫約翰·格朗特(John Graunt) 的英國縫紉用品商提出了一個很有新意的方法。他採用了一個新方法推算出鼠疫時期倫敦的人口數,這種方法就是後來的統計學。這個方法不需要一個人一個人地計算。雖然這個方法比較粗糙,但採用這個方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。

雖然後來證實他能夠得出正確的數據僅僅是因為運氣好,但在當時他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此無論是進行人口普查還是其他大數據類的任務,人們還是一直使用一一清點這種「野蠻」的方法。

統計學家們證明:採樣分析的精確性隨著採樣隨機性的增加而大幅提高,但與樣本數量的增加關係不大。雖然聽起來很不可思議,但事實上,一個對1100人進行的關於「是否」問題的抽樣調查有著很高的精確性,精確度甚至超過了對所有人進行調查時的97% 。這是真的,不管是調查10萬人還是1億人,20次調查里有19次都能猜對。為什麼會這樣?原因很複雜,但是有一個比較簡單的解釋就是,當樣本數量達到了某個值之後,我們從新個體身上得到的信息會越來越少,就如同經濟學中的邊際效應遞減一樣。

一個資料庫並不需要有以太位元組 計的數據。在這個相撲案例中,整個資料庫包含的位元組量還不如一張普通的數碼照片包含得多。但是大數據分析法不只關注一個隨機的樣本。這裡的「大」取的是相對意義而不是絕對意義,也就是說這是相對所有數據來說的。

這就是問題所在,是利用所有的數據還是僅僅採用一部分呢?最明智的自然是得到有關被分析事物的所有數據,但是當數量無比龐大時,這又不太現實。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當的方法。1934年,波蘭統計學家耶日·奈曼(Jerzy Neyman)指出,這隻會導致更多更大的漏洞。事實證明,問題的關鍵是選擇樣本時的隨機性。

社會科學是被「樣本=總體」撼動得最厲害的學科。隨著大數據分析取代了樣本分析,社會科學不再單純依賴於分析實證數據。這門學科過去曾非常依賴樣本分析、研究和調查問卷。當記錄下來的是人們的平常狀態,也就不用擔心在做研究和調查問卷時存在的偏見 了。現在,我們可以收集過去無法收集到的信息,不管是通過行動電話表現出的關係,還是通過Twitter信息表現出的感情。更重要的是,我們現在也不再依賴抽樣調查了。

很長一段時間以來,準確分析大量數據對我們而言都是一種挑戰。過去,因為記錄、儲存和分析數據的工具不夠好,我們只能收集少量數據進行分析,這讓我們一度很苦惱。為了讓分析變得簡單,我們會把數據量縮減到最少。這是一種無意識的自省:我們把

上一章目錄+書簽下一頁