第二部分 大數據時代的商業變革 04 數據化:一切皆可「量化」

在西方,對位置信息的量化起源於希臘。公元前200年,埃拉托色尼發明了用格網線來劃分區域的系統,類似於經緯度法。但是,如同很多古代的好想法一樣,它也在歷史長河中被慢慢遺忘了。大約1500年之後,也就是公元1400年,托勒密著成的《地理學》(Geographia)的複印本從君士坦丁堡傳到了佛羅倫薩,那正是文藝復興和貿易船點燃了對科學和古典知識的熱情的時候。著作轟動一時,而書中提到的系統現在仍被用來解決航海導航的難題。從那以後,地圖上標上了經緯度和比例尺。這套系統在1570年得到了佛蘭德製圖師墨卡托的改善,至此海員們就能利用它畫出筆直的航線了。

當文字變成數據,它就大顯神通了——人可以用之閱讀,機器也可用之分析。但是作為典型的大數據公司,谷歌自然知道收集信息並進行數據化的價值,因為這些數據有非常多的潛在用途。所以,谷歌精明地利用這些數據化了的文本來改進它的機器翻譯服務。就像第3章介紹過的一樣,這個系統會自動掃描譯本,然後找出譯語的單詞和片語在源語中的對應詞和片語是什麼。一旦得到答案,系統就可以把翻譯看成是一個簡單的數學問題,只需要用電腦找出兩種語言之間最恰當的對等詞和片語。

計量和記錄能夠再現人類活動。比如通過記錄建築物的建築方式和原材料,我們就能再建同樣的建築,或進行實驗性的操作,比如通過改變一些方式保存其他部分而建造出新的建築物,然後再記錄這些新建築物。交易情況一旦得到記錄,我們就可以知道一塊地豐收時稻穀的產量是多少、需要上繳多少政府稅收。計量和記錄為預測和計畫奠定了基礎,雖然這建立在假定明年的收成和今年一樣的基礎上。有了記錄,交易雙方才會知道他們賒賬的情況,而如果沒有這些憑證的支持,欠債的一方則完全可以不用還錢。

大數據先鋒

谷歌的數字圖書館

你可以自己試一試。輸入網址books.google./ngrams,打開Google Ngram Viewer,它利用谷歌所擁有的所有圖書作為數據資源,為你提供單詞和短語歷年使用次數的展示圖表。眨眼之間,我們就能發現「causality」(因果關係)這個詞在1900年之前的使用頻率比「correlation」(相關關係)高;而在1900年之後,情況就與之前相反了。對於作者存在爭議的書籍,我們自己也可以進行作品風格鑒定。數據化的實現讓抄襲學術作品的行為越來越無處藏身,因此,很多歐洲政客(包括一名德國國防部長)的抄襲行為被曝光,最終不得不引咎辭職。

如今,複式記賬法通常被看成是會計業和金融業不斷發展的成果。事實上,在數據利用的推進過程中,它也是一個里程碑似的存在。它的出現實現了相關賬戶信息的「分門別類」記錄。它建立在一系列記錄數據的規則之上,也是最早的信息記錄標準化的例子,使得會計們能夠讀懂彼此的賬本。複式記賬法可以使查詢每個賬戶的盈虧情況變得簡單容易。它會提供交易的記賬線索,這樣就更容易找到需要的數據。它的設計理念中包含了「糾錯」的思想,這也是今天的技術人才們應該學習的。如果一個賬本看著不對勁,我們可以查詢另一個相對應的賬本。

大數據發展的核心動力來源於人類測量、記錄和分析世界的渴望。信息技術變革隨處可見,但是如今的信息技術變革的重點在「T」(技術)上,而不是在「I」(信息)上。現在,我們是時候把聚關燈打向「I」,開始關注信息本身了。

莫里整合了數據之後,把整個大西洋按經緯度劃分成了五塊,並按月份標出了溫度、風速和風向,因為根據時間的不同這些數據也有所不同。整合之後,這些數據顯示出了有價值的模式,也提供了更有效的航海路線。

他清點了庫房裡的氣壓計、指南針、六分儀和天文鐘。他發現,庫房裡存放著許多航海書籍、地圖和圖表;還有塞滿了舊日誌的發霉木箱,這些都是以前的海軍上尉寫的航海日誌。剛開始的時候,他覺得這些都是垃圾,但當他拍掉被海水浸泡過的書籍上的灰塵,凝視著裡面的內容時,莫里突然變得非常激動。

公元前3000年,會計手稿就出現了。但是,記賬法在接下來的幾百年里發展緩慢,基本上一直保持在記錄某地的某個特定交易的階段。記賬人和他的僱主最關心的就是判斷某個賬戶或者自己所從事的行業是否賺錢,而這正是當時的記賬手法無法輕易做到的事情。到了14世紀,隨著義大利的會計們開始使用兩個賬本記錄交易明細,這種尷尬的境地開始發生改變。這種記賬法的優勢在於,人們只需要將借貸相加,就可進行製表並得知每個賬戶的盈虧情況。如此,數據驟然發聲了,雖然僅限於讀出盈虧情況。

亞馬遜擁有數據化的書籍,卻不曾挖掘書籍數據化之後的附加價值。該公司創始人兼執行總裁貝索斯說服了上百家出版社在Kindle上發布它們的圖書,所以Kindle的圖書並不是數字圖像,人們可以更改字體大小和用黑白以及彩色兩種方式看書。這些書籍是數據化了的,不只是數字化。事實上,亞馬遜把上百萬的新書都數據化了,而谷歌卻在費力地數據化很多舊版本的數據。然而,亞馬遜把它的眼光聚焦於用來閱讀的書籍內容上,而不是分析數據化文本上。當然,有可能它面對了來自傳統出版社的壓力,後者可能限制了書籍內容的使用方法,畢竟版權在人家手中。谷歌,作為一個喜歡跨界的叛逆的大數據公司,就沒有這樣的壓力了,畢竟谷歌的資源來源於用戶點擊,而不關出版社什麼事。至少現在,可以不失公允地說,亞馬遜深諳數字化內容的意義,而谷歌觸及了數據化內容的價值。

不過,位置數據在商業以外的用途或許才是最重要的。麻省理工學院媒體實驗室人類動力學 實驗室主任亞歷山大·彭特蘭(Alexander 「Sandy」Pentland)和他的學生南森·伊格爾(Nathan Eagle)是所謂的「現實挖掘」研究的先驅。「現實挖掘」這裡指的是通過處理大量來自手機的數據,發現和預測人類行為。在一項研究中,他們通過分析每個人去了哪裡、見了誰,成功地區分出了感染了流感的人群,而且在感染者還完全不知道自己已經患病之前就做出了區分。如果出現非常嚴重的流感疫情,這可以挽救無數人的生命,因為我們會知道應該隔離誰,而且隨時都知道去哪裡找到他。但是這些數據一旦落入壞人之手,後果將不堪設想,這個問題我們將在後文中繼續討論。

通過分析這些數據,莫里知道了一些良好的天然航線,這些航線上的風向和洋流都非常利於航行。他所繪製的圖表幫助商人們節省了一大筆錢,因為航海路程減少了三分之一左右。一個船長感激地說:「我在得到你的圖表之前都是在盲目地航行,你的圖表真的指引了我。」有一些頑固的人拒絕使用這個新制的圖表,而當他們因為使用舊方法航行到半路出了事故或者花費的航行時間長很多的時候,他們反而幫助證明了莫里系統的實用性。

馬修·方丹·莫里(Matthew Fontaine Maury)是一位很有前途的美國海軍軍官。1839年,在他前往雙桅船「合奏號」(sort)接受一個新任務時,他乘坐的馬車突然滑出了車道,瞬間傾倒,把他拋到了空中。他重重地摔到了地上,大腿骨粉碎性骨折,膝蓋也脫臼了。當地的醫生幫他複位了膝蓋關節,但大腿受傷過重,幾天後還需要重新手術。直到33歲,他的傷才基本痊癒,但是受傷的腿卻留下了殘疾,變得有點兒跛,再也無法在海上工作。經過近三年的休養,美國海軍把他安排進了辦公室,並任命他為圖表和儀器廠的負責人。

數據化不僅能將態度和情緒轉變為一種可分析的形式,也可能轉化人類的行為。這些行為難以跟蹤,特別是在較大的社區和其中的子人群環境中。

大約公元1世紀的時候,印度發明了一種自己的數字系統。它傳播到了波斯,並在那裡得到改善,而後傳入阿拉伯國家,得到了極大的改進。這也就是今天使用的阿拉伯數字的前身。十字軍東征給當地人民帶來了徹頭徹尾的災難,但同時也把西歐文明帶到了地中海東部,而其中最重要的引入就是阿拉伯數字。公元1000年,教皇西爾維斯特二世開始倡導使用阿拉伯數字。12世紀,介紹阿拉伯數字的書籍被翻譯成拉丁文,傳播到了整個歐洲地區。這也就開啟了算術的騰飛。

地球本身構成了世界上最基礎的信息。但是,歷史上它幾乎從來沒有被量化和數據化過。其實,人和事物的地理定位自然是信息的組成部分,不然我們如何能夠吟唱「所謂伊人,在水一方」,但是,這些信息需要轉變為數據。

只要一點想像,萬千事物就能轉化為數據形式,並一直帶給我們驚喜。IBM獲得的「觸感技術先導」專利與東京的越水重臣教授對臀部的研究工作具有相同理

上一章目錄+書簽下一頁