正文 引言 一場生活、工作與思維的大變革

大數據並非一個確切的概念。最初,這個概念是指需要處理的信息量過大,已經超出了一般電腦在處理數據時所能使用的內存量,因此工程師們必須改進處理數據的工具。這導致了新的處理技術的誕生,例如谷歌的MapReduce和開源Hadoop平台(最初源於雅虎)。這些技術使得人們可以處理的數據量大大增加。更重要的是,這些數據不再需要用傳統的資料庫表格來整齊地排列——一些可以消除僵化的層次結構和一致性 的技術也出現了。同時,因為互聯網公司可以收集大量有價值的數據,而且有利用這些數據的強烈的利益驅動力,所以互聯網公司順理成章地成為了最新處理技術的領頭實踐者。它們甚至超過了很多有幾十年經驗的線下公司,成為新技術的領銜使用者。

2009年出現了一種新的流感病毒。這種甲型H1N1流感結合了導致禽流感和豬流感的病毒的特點,在短短几周之內迅速傳播開來。全球的公共衛生機構都擔心一場致命的流行病即將來襲。有的評論家甚至警告說,可能會爆發大規模流感,類似於1918年在西班牙爆發的影響了5億人口並奪走了數千萬人性命的大規模流感。更糟糕的是,我們還沒有研發出對抗這種新型流感病毒的疫苗。公共衛生專家能做的只是減慢它傳播的速度。但要做到這一點,他們必須先知道這種流感出現在哪裡。

把眼光放遠一點,我們可以把時下的信息洪流與1439年前後古登堡發明印刷機 時造成的信息爆炸相對比。歷史學家伊麗莎白·愛森斯坦(Elizabeth Eisenstein)發現,1453—1503年,這50年之間大約有800萬本書籍被印刷,比1200年之前君士坦丁堡建立以來整個歐洲所有的手抄書還要多。換言之,歐洲的信息存儲量花了50年才增長了一倍(當時的歐洲還佔據了世界上相當部分的信息存儲份額),而如今大約每三年就能增長一倍。

2003年,奧倫·埃齊奧尼(Orezioni)準備乘坐從西雅圖到洛杉磯的飛機去參加弟弟的婚禮。他知道飛機票越早預訂越便宜,於是他在這個大喜日子來臨之前的幾個月,就在網上預訂了一張去洛杉磯的機票。在飛機上,埃齊奧尼好奇地問鄰座的乘客花了多少錢購買機票。當得知雖然那個人的機票比他買得更晚,但是票價卻比他便宜得多時,他感到非常氣憤。於是,他又詢問了另外幾個乘客,結果發現大家買的票居然都比他的便宜。

大數據的精髓在於我們分析信息時的三個轉變,這些轉變將改變我們理解和組建社會的方法。

大數據洞察

這僅僅只是一個開始,大數據時代對我們的生活,以及與世界交流的方式都提出了挑戰。最驚人的是,社會需要放棄它對因果關係的渴求,而僅需關注相關關係。也就是說只需要知道是什麼,而不需要知道為什麼。這就推翻了自古以來的慣例,而我們做決定和理解現實的最基本方式也將受到挑戰。

當然,人類從數千年前就開始分析數據。古代美索不達米亞平原的記賬人員為了有效地跟蹤記錄信息發明了書寫。自從聖經時代開始,政府就通過進行人口普查來建立大型的國民資料庫。兩百多年來,精算師們也一直通過搜集大量的數據來進行風險規避。

達到精確需要有專業的資料庫。針對小數據量和特定事情,追求精確性依然是可行的,比如一個人的銀行賬戶上是否有足夠的錢開具支票。但是,在這個大數據時代,很多時候,追求精確度已經變得不可行,甚至不受歡迎了。當我們擁有海量即時數據時,絕對的精準不再是我們追求的主要目標。

大數據洞察

如今,數據已經成為了一種商業資本,一項重要的經濟投入,可以創造新的經濟利益。事實上,一旦思維轉變過來,數據就能被巧妙地用來激發新產品和新型服務。數據的奧妙只為謙遜、願意聆聽且掌握了聆聽手段的人所知。

大數據對個人的影響是最驚人的。在一個可能性和相關性佔主導地位的世界裡,專業性變得不那麼重要了。行業專家不會消失,但是他們必須與數據表達的信息進行博弈。如同在電影《點球成金》(Moneyball)里,棒球星探們在統計學家面前相形見絀——直覺的判斷被迫讓位於精準的數據分析。這將迫使人們調整在管理、決策、人力資源和教育方面的傳統理念。

大數據開啟了一次重大的時代轉型。就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數據正在改變我們的生活以及理解世界的方式,成為新發明和新服務的源泉,而更多的改變正蓄勢待發……

美國,和所有其他國家一樣,都要求醫生在發現新型流感病例時告知疾病控制與預防中心。但由於人們可能患病多日實在受不了了才會去醫院,同時這個信息傳達回疾控中心也需要時間,因此,通告新流感病例時往往會有一兩周的延遲。而且,疾控中心每周只進行一次數據匯總。然而,對於一種飛速傳播的疾病,信息滯後兩周的後果將是致命的。這種滯後導致公共衛生機構在疫情爆發的關鍵時期反而無所適從。

我們在大數據時代倡導的一系列規範將在第8章進行介紹。這些規範建立在我們很熟悉的「小數據」時代發展並保留下來的規範的基礎之上。新環境要求舊規範與時俱進。

1994年,埃齊奧尼幫助創建了最早的互聯網搜索引擎MetaCrawler,該引擎後來被InfoSpace公司收購。他聯合創立了第一個大型比價網站,後來把它賣給了Excite公司。他創立的從文本中挖掘信息的公司ClearForest則被路透社收購了。在他眼中,世界就是一系列的大數據問題,而且他認為自己有能力解決這些問題。作為哈佛大學首屆計算機科學專業的本科畢業生,自1986年畢業以來,他也一直致力於解決這些問題。

飛機著陸之後,埃齊奧尼下定決心要幫助人們開發一個系統,用來推測當前網頁上的機票價格是否合理。作為一種商品,同一架飛機上每個座位的價格本來不應該有差別。但實際上,價格卻千差萬別,其中緣由只有航空公司自己清楚。

政府機構和社會在控制和處理數據的方法上必須有全方位的改變。不可否認,我們進入了一個用數據進行預測的時代,雖然我們可能無法解釋其背後的原因。如果一個醫生只要求病人遵從醫囑,卻沒法說明醫學干預的合理性的話,情況會怎麼樣呢?實際上,這是依靠大數據取得病理分析的醫生們一定會做的事情。還有司法系統的「合理證據」是不是應該改為「可能證據」呢?如果真是這樣,會對人類自由和尊嚴產生什麼影響呢?

在不久的將來,世界許多現在單純依靠人類判斷力的領域都會被計算機系統所改變甚至取代。計算機系統可以發揮作用的領域遠遠不止駕駛和交友,還有更多更複雜的任務。別忘了,亞馬遜可以幫我們推薦想要的書,谷歌可以為關聯網站排序,Facebook知道我們的喜好,而LinkedIn可以猜出我們認識誰。 當然,同樣的技術也可以運用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。

埃齊奧尼創立了一個預測系統,它幫助虛擬的乘客節省了很多錢。這個預測系統建立在41天之內的12000個價格樣本基礎之上,而這些數據都是從一個旅遊網站上爬取過來的。這個預測系統並不能說明原因,只能推測會發生什麼。也就是說,它不知道是哪些因素導致了機票價格的波動。機票降價是因為有很多沒賣掉的座位、季節性原因,還是所謂的「周六晚上不出門」,它都不知道。這個系統只知道利用其他航班的數據來預測未來機票價格的走勢。「買還是不買,這是一個問題。」埃齊奧尼沉思著。他給這個研究項目取了一個非常貼切的名字,叫「哈姆雷特」。

從科學研究到醫療保險,從銀行業到互聯網,各個不同的領域都在講述著一個類似的故事,那就是爆髮式增長的數據量。這種增長超過了我們創造機器的速度,甚至超過了我們的想像。

大數據的力量

據他估算,2007年,人類大約存儲了超過300艾位元組 的數據。下面這個比喻應該可以幫助人們更容易地理解這意味著什麼了。一部完整的數字電影可以壓縮成一個GB的文件,而一個艾位元組相當於10億GB,一個澤位元組 則相當於1024艾位元組。總之,這是一個非常龐大的數量。

大數據的力量

到2012年為止,Farecast系統用了將近十萬億條價格記錄來幫助預測美國國內航班的票價。Farecast票價預測的準確度已經高達75%,使用Farecast票價預測工具購買機票的旅客,平均每張機票可節省50美元。

大數據紛繁多樣,優劣摻雜,分布在全球多個伺服器上。擁有了大數據,我們不再需要對一個現象刨根究底,只要掌握大體的發展方向即可。當然,我們也不是完全放棄了精確度,只是不再

上一章目錄+書簽下一頁