第一部分 大數據時代的思維變革 02 更雜:不是精確性,而是混雜性

執迷於精確性是信息缺乏時代和模擬時代的產物。只有5%的數據是結構化且能適用於傳統資料庫的。如果不接受混亂,剩下95%的非結構化數據都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。

現在想想增加讀數頻率的這個事情。如果每隔一分鐘就測量一下溫度,我們至少還能夠保證測量結果是按照時間有序排列的。如果變成每分鐘測量十次甚至百次的話,不僅讀數可能出錯,連時間先後都可能搞混掉。試想,如果信息在網路中流動,那麼一條記錄很可能在傳輸過程中被延遲,在其到達的時候已經沒有意義了,甚至乾脆在奔涌的信息洪流中徹底迷失。雖然我們得到的信息不再那麼準確,但收集到的數量龐大的信息讓我們放棄嚴格精確的選擇變得更為划算。

大數據先鋒

麻省理工與通貨緊縮預測軟體

「10億價格項目」(The Billion Prices Project,BBP)提供了一個有趣的例子。美國勞工統計局的人員每個月都要公布消費物價指數(CPI),這是用來測試通貨膨脹率的。這些數據對投資者和商家都非常重要。在決定是否增減銀行利率的時候,美聯儲也會考慮消費指數。一旦發生通貨膨脹,工人工資也會增加。聯邦政府在支付社會福利和債券利息的款項時,這項指數也是他們參考的依據。

聯邦政府為了得到這些數據,會僱用很多人向全美90個城市的商店、辦公室打電話、發傳真甚至登門拜訪。他們反饋回來的各種各樣的價格信息達80000種,包括土豆的價格、計程車的票價等。政府採集這些數據每年大概需要花費兩億五千萬美元。這些數據是精確的也是有序的,但是這個採集結果的公布會有幾周的滯後。2008年的經濟危機表明,這個滯後是致命的。政策決策者為了更好地應對變化,需要及時了解通貨膨脹率,但如果以傳統的依賴採樣和追求精確的方式進行數據收集,政府就不可能及時獲得數據了。

麻省理工學院(MIT)的兩位經濟學家,阿爾貝托·卡瓦略(Alberto Cavell)和羅伯托·里哥本(Obertobon)就對此提出了一個大數據方案,那就是接受更混亂的數據。通過一個軟體在互聯網上收集信息,他們每天可以收集到50萬種商品的價格。收集到的數據很混亂,也不是所有數據都能輕易進行比較。但是把大數據和好的分析法相結合,這個項目在2008年9月雷曼兄弟破產之後馬上就發現了通貨緊縮趨勢,然而那些依賴官方數據的人直到11月份才知道這個情況。

值得注意的是,錯誤性並不是大數據本身固有的。它只是我們用來測量、記錄和交流數據的工具的一個缺陷。如果說哪天技術變得完美無缺了,不精確的問題也就不復存在了。錯誤並不是大數據固有的特性,而是一個亟需我們去處理的現實問題,並且有可能長期存在。因為擁有更大數據量所能帶來的商業利益遠遠超過增加一點精確性,所以通常我們不會再花大力氣去提升數據的精確性。這又是一個關注焦點的轉變,正如以前,統計學家們總是把他們的興趣放在提高樣本的隨機性而不是數量上。如今,大數據給我們帶來的利益,讓我們能夠接受不精確的存在了。

當然,有時人們錯標的標籤會導致資源編組的不準確,這會讓習慣了精確性的人們很痛苦。但是,我們用來編組照片集的混亂方法給我們帶來了很多好處。比如,我們擁有了更加豐富的標籤內容,同時能更深更廣地獲得各種照片。我們可以通過合併多個搜索標籤來過濾我們需要尋找的照片,這在以前是無法完成的。我們添加標籤時所固帶的不準確性從某種意義上說明我們能夠接受世界的紛繁複雜。這是對更加精確系統的一種對抗。這些精確的系統試圖讓我們接受一個世界貧乏而規整的慘象——假裝世間萬物都是整齊地排列的。而事實上現實是紛繁複雜的,天地間存在的事物也遠遠多於系統所設想的。

我們研究一個現象,是因為我們相信我們能夠理解它。後來,測量方法逐漸被運用到科學觀察、解釋方法中,體現為一種進行量化研究、記錄,並呈現可重複結果的能力。偉大的物理學家開爾文男爵曾說過:「測量就是認知。」這已成為一條至理名言。培根也曾說過:「知識就是力量。」同時,很多數學家以及後來的精算師和會計師都發展了可以準確收集、記錄和管理數據的方法。

我們可以在大量數據對計算機其他領域進步的重要性上看到類似的變化。我們都知道,如摩爾定律所預測的,過去一段時間裡計算機的數據處理能力得到了很大的提高。摩爾定律認為,每塊晶元上晶體管的數量每兩年就會翻一倍。這使得電腦運行更快速了,存儲空間更大了。大家沒有意識到的是,驅動各類系統的演算法也進步了——美國總統科技顧問委員會的報告顯示,在很多領域這些演算法帶來的進步還要勝過晶元的進步。然而,社會從「大數據」中所能得到的,並非來自運行更快的晶元或更好的演算法,而是更多的數據。

事實證明,計算機翻譯最初的成功誤導了人們。1966年,一群機器翻譯的研究人員意識到,翻譯比他們想像的更困難,他們不得不承認自己的失敗。機器翻譯不能只是讓電腦熟悉常用規則,還必須教會電腦處理特殊的語言情況。畢竟,翻譯不僅僅只是記憶和複述,也涉及選詞,而明確地教會電腦這些非常不現實。法語中的「bonjour」就一定是「早上好」嗎?有沒有可能是「今天天氣不錯」、「吃了嗎」或者「喂」?事實上都有可能——這需要視情況而定。

最初,計算機研發人員打算將語法規則和雙語詞典結合在一起。1954年,IBM以計算機中的250個詞語和六條語法規則為基礎,將60個俄語片語翻譯成了英語,結果振奮人心。IBM 701通過穿孔卡片讀取了「Mi pyeryedayem mislyi posryedstvom ryechyi」這句話,並且將其譯成了「我們通過語言來交流思想」。在慶祝這個成就的發布會上,一篇報道就有提到,這60句話翻譯得很流暢。這個程序的指揮官利昂·多斯特爾特(Leon Dostert)表示,他相信「在三五年後,機器翻譯將會變得很成熟」。

MIT的這個項目彙集了數百萬的產品,它們被數百個零售商賣到了70多個國家。這個項目產生的一個名為PriceStats的商業方案也經常被一些銀行和其他經濟決策人用到。當然,收集到的數據需要仔細的分析,而且這些數據更善於表明價格的發展趨勢而不是精確的價格。但是因為PriceStats收集到了更多的價格信息而且大多是即時的,所以這對決策者來說就非常有益了。

混亂還可以指格式的不一致性,因為要達到格式一致,就需要在進行數據處理之前仔細地清洗數據,而這在大數據背景下很難做到。「大數據」專家帕堤爾(D.J.Patil)指出,I.B.M.、T.J.Watson Labs、Iional Business Maes都可以用來指代IBM,甚至可能有成千上萬種方法稱呼IBM。當然,在萃取或處理數據的時候,混亂也會發生。因為在進行數據轉化的時候,我們是在把它變成另外的事物。比如,我們在對Twitter的信息進行情感分析來預測好萊塢票房的時候,就會出現一定的混亂。其實,混亂的起源和類型本來就是一團亂麻。

假設你要測量一個葡萄園的溫度,但是整個葡萄園只有一個溫度測量儀,那你就必須確保這個測量儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的數據可能會是錯誤的,可能會更加混亂,但眾多的讀數合起來就可以提供一個更加準確的結果。因為這裡面包含了更多的數據,而它不僅能抵消掉錯誤數據造成的影響,還能提供更多的額外價值。

大數據在多大程度上優於演算法這個問題在自然語言處理上表現得很明顯(這是關於計算機如何學習和領悟我們在日常生活中使用語言的學科方向)。在2000年的時候,微軟研究中心的米歇爾·班科(Michele Banko)和埃里克·布里爾(Eric Bill)一直在尋求改進Word程序中語法檢查的方法。但是他們不能確定是努力改進現有的演算法、研發新的方法,還是添加更加細膩精緻的特點更有效。所以,在實施這些措施之前,他們決定往現有的演算法中添加更多的數據,看看會有什麼不同的變化。很多對計算機學習演算法的研究都建立在百萬字左右的語料庫基礎上。最後,他們決定往4種常見的演算法中逐漸添加數據,先是一千萬字,再到一億字,最後到十億。

我們甚至發現,不精確已經滲入了資料庫設計這個最不能容忍錯誤的領域。傳統的資料庫引擎要求數據高度精確和準確排列。數據不是單純地被存儲,它往往被劃分為包含「域」的記錄,每個域都包含了特定種類和特定長度的信息。比方說

上一章目錄+書簽下一頁