第三章 Web 3.0 谷歌式科學

一個巨大的以PB級計數的信息資料庫曙光般的出現,足以改變我們學習的方式。科研工作的傳統方式需要構造一個符合已有數據的假說,或者依靠這個假說來尋找新數據。現在這個資料庫里有大量觀測數據,為了讓我們能夠展開下階段的觀測,什麼理論能充分地解釋它們呢?

可被證實的是,數量驚人的數據足以跳過理論部分進行預測觀察。谷歌是首先注意到這一現象的。以谷歌的拼寫檢查為例,當你用谷歌搜索的過程中出現拼寫錯誤時,它會給出拼寫正確的搜索建議。谷歌是如何知道你要寫什麼詞並預測其正確拼寫方式的呢?這並不是因為它有正確拼寫的理論或掌握了拼寫規則,事實上,谷歌對拼寫規則一無所知。

相反,谷歌運行的是一個非常龐大的資料庫,該資料庫顯示的是任何單詞的給定拼寫觀測數據,這些數據記載了諸如多少人在想說「yes」的時候意圖拼寫字母「y」之類的數據。谷歌的拼寫引擎完全由這些數據點而非英文的正確拼寫概念構成,這也是同一系統可以糾正任何語種拼寫錯誤的原因。

事實上,這個通過研究海量數據的理念被谷歌運用在了其翻譯項目中。通過匹配大量人工翻譯材料,谷歌翻譯可以進行英譯法、德譯漢。例如,在訓練其法英翻譯引擎時,谷歌錄入了大量英法雙語版的加拿大文件。谷歌翻譯引擎沒有語言理論知識,尤其是法語,也沒有人工智慧翻譯,相反,它們有的是不計其數的數據點,這些數據點聚集了各語言之間由此及彼的數據鏈接。

一旦你調整好這個翻譯系統,它就可以將一種語言翻譯為另一種語言,而且翻譯效果還不錯——雖然還沒到翻譯家的水平,但起碼也能翻出要點。當你訪問一個中文網站的時候,你能知道在英文中它大概是什麼意思。谷歌研發負責人彼得·諾維格(Peter N)曾經對我吹噓道:「我們中文翻譯引擎的相關工作人員中,沒有一個會說中文。」整個翻譯工作與中文理論和對中文的理解毫無關聯,重要的只有數據。(如果有人在找希爾勒的「中文房間」(ese room)的反證,這裡就有一個。)

如果你可以學會如何拼寫一種語言,卻對其拼寫規則和語法一無所知;如果你能學會如何翻譯幾種語言,卻缺乏所譯語種語法的理論和概念;那麼,在這種缺乏理論的情況下,你還能學會什麼呢?

在本月《連線》雜誌的封面文章中,克里斯·安德森探索了這樣的想法:也許你可以在對理論一無所知的情況下搞科學。

在當下的世界中,大量的數據和應用數學取代了能夠施加的其他每種工具。涵蓋了從語言學到社會學的一切人類行為理論。忘記那些分類學、本體論和心理學吧,誰知道人為什麼在做他們所做的事情呢?重點在於他們在做這些事情,而且我們可以以前所未有的高準確度追蹤和測量它們。在數據面前,那些數字自己會說話。

以PB計數的數據允許我們放言:「我們已經掌握了足夠的關聯。」我們可以停止尋找模型,我們可以直接分析數據而不必再假設它顯示些什麼,我們可以把數字投入世界上最大的計算機群,讓統計概算去發現其中科學不能發現的模式。

這個觀測可能有點道理。許多科學,諸如天文學、物理學、基因組學、語言學和地質學,目前都生成了極其龐大的數據組和穩定的、以PB計的數據流,未來十年間它們將以EB計數。使用老式的「機器學習能力」,計算機可以在數據的海洋中提取各種模式,而人類卻沒有任何在其中檢測模式的能力,而這些模式正是關聯。這些觀測也許能引起關聯,也許並不能,但我們可以從中學到新東西。因此,雖然沒有遵從傳統方式,但它們能夠勝任科學所做的事情。

安德森的上述建議實際上意在表明足夠關聯的有效性。關聯同樣適用於醫療保健,大量診治是建立在相關方法之上的。醫生可能無法確定或理解患者致病的真正原因,但他(她)能夠正確推測病因並治療病症。這樣的做法科學嗎?你可以解決問題,但如果你沒有建模的話,人們還能寄希望於這種解決問題的方式嗎?

上述問題的答案我們尚不知曉。這種方法的科技術語是「數據密集型可擴展運算」(DISC),還可以用其他術語表述為「網格數據結構」或「千兆級數據密集型運算」。這些技術的重點在運算的數據密集型本質,而非集群計算本身。在線業內人士稱此種研究方法為「分析法」,諸如谷歌、IBM、雅虎這樣的雲計算公司及部分高校已經就此方法組建了工作室進行研討,這些技術先鋒試圖從根本上利用雲計算或統一體機器來進行大規模科研。目前在用的工具多為大規模並行軟體平台,包括像MapReduce和Hadoop,它們可以進行廉價存儲,且擁有龐大集群的數據中心。到目前為止,除基因組學之外,很少有科學家採用這些新工具。NSF的集群探索計畫的意圖在於把那些擁有大型數據基礎驅動觀測的科學家,與那些具有計算機聯網或雲計算相關知識和專長的計算機科學家相匹配。

我的猜測是,這種新興方法在科學方法的演進過程中將是一種額外工具。它並不會取代任何現有方法(不好意思,科學是永無止盡的),但它必將推動建立理論導向的科學。讓我們把這種數據密集型解決問題的方法稱為「相關性分析」。我認為克里斯·安德森將其論題命名為「理論的終點」是在浪費一個獨一無二的機會,因為「理論的終點」是個否定概念,是某物的缺失。相反,這應該是某物的開始,當你用一個正面的名字命名某物的時候,這也是一個加速其面世的機會。一個非否定的命名將有益於闡明論題。我建議將之命名為「相關性分析」,它比「沒有理論」要好,因為我也不能完全肯定這些相關係統不需要模型。我覺得在系統中有個新興的、無意識的隱含模型,它會生成答案。即便谷歌中文房間的英語工作人員中,沒有一個人知道任何中文理論,我們也仍然認為其中是含有理論因素的。模型可能超越系統創造者的認知和理解,而且既然它在運行,那也就沒有究其根本的必要。它就在那裡,用一種我們無法企及的水平運行著。

模型的「隱形」與其運作毫無關聯。它並非理論的終點,而是我們已知理論的終點。作為對克里斯·安德森文章的回應,喬治·戴森的表述可能更為清晰:

長久以來,我們一直沉迷於這樣一個觀點,即人類大腦在某種程度上包含著現實世界的「模型」,一旦類似「模型」被編入人工智慧,它將擁有同樣功能。「模型」是什麼?它包含兩個要素:1)能運轉的物;2)我們能理解的物。不管是GenBank還是谷歌,這些大型的、分散式的、PB級的創造,都正在試圖用運轉得還不錯、但我們不必了解的方式把握著現實世界。

就算把大腦拆到神經元都不剩,我們也找不到「模型」到底在哪。即便如此,真正的人工智慧也將應運而生。它並不需要源源不斷的模型或智力理論——現實世界已經解決這些問題了。

在任何可能的定義下,「超維」(或類似凱文的「統一體機器」之類的東西)正在開始思考,儘管這既不意味著它在以我們的思維方式進行思考,也不等於我們能夠理解它的思維方式。

克里斯·安德森暗示的是,能夠從事科學(以及傑出的商業)的人,將不僅能夠直接讀懂自然,同時還能找出路徑讀懂超維。

集中成千上萬的數據點,用統一體機器運算並給出相關答案,喬治·戴森所建議的這種新方法不單可用於科研,同時也可被視為與新型科學家溝通的方法——這些新型科學家可以在我們無法掌控的超計數學領域的抽象水平上創建模型。

迄今為止,相關性分析或者谷歌式科學主要被應用於諸如語言翻譯、市場行銷之類擁有龐大數據的領域,我們的集體在線生活正是這無法計算的數據的來源。隨著我們對自然的觀察和測量達到全天候,隨著各種感測器和探頭的激增和實時監測的展開,科學也將進入超計數學領域,並可被相關性分析的新工具輕而易舉地處理。在這個新領域中,我們會得到一些我們不理解但可解決問題的答案——這些答案是局部認知嗎?抑或是一種不同的認知?

也許「認知」和「結果」都高估了數字科學。傳言巴勃羅·畢加索(Pablo Picasso)曾這樣說過:「計算機的問題在於它只給你結果。」這些數據驅動的龐大關聯繫統會給出很多結果——當然它們都是好的——但這也是它們唯一能給我們的東西。「給我們好答案」正是超級電腦所做的事情。在雲計算的未來世界,完美的答案將成為一種商品,而問些好問題則成為非數字科學的唯一價值。

2008年6月28日

上一章目錄+書簽下一章