第五章 共同進化 5.5 不講交情或無遠見的合作

對於多數懷疑論者說來,蓋亞的麻煩在於將一個非活物的星球看作是一部「聰明的」機器。我們曾試圖將毫無生氣的計算機設計成人工學習機器,但卻遭受了挫折。因此,在行星尺度內展開頭緒紛亂的人工學習,其前景似乎挺荒謬。

但實際上我們高估了學習,把它當成一件難事,這與我們的沙文主義情節——把學習當成是人類特有的能力——不無關係。在本書中,我想要表述一種強烈的看法,即進化本身就是一種學習。因此,凡有進化(哪怕是人工進化)的地方就會有學習。

將學習行為拉下神壇,是我們正在跨越的最激動人心的知識前沿之一。在一個虛擬的回旋加速器里,學習正被撞裂成為基本粒子。科學家們正在為適應、歸納、智能、進化、共同進化等事物的基本成分編目造冊,使之成為一個生命的元素周期表。學習所需的各種粒子藏身於所有遲鈍的介質當中,等待著被組裝(並往往自行組裝)成奔涌靈動的事物。

共同進化就是多種形式的學習。斯圖爾特·布蘭德在《共同進化季刊》中寫道:「沒錯,生態系統是一個完整系統,而共同進化則是一個時間意義上的完整系統。它在常態下是向前推進的、系統化的自我教育,並從不斷改正錯誤中汲取營養。如果說生態系統是在維持的話,那麼共同進化則是在學習。」

生物的共同進化行為也許可以用一個更好的術語來描述——共同學習,或者共同傳授也行,因為共同進化的各方在相互學習的同時也在相互傳授。(我們沒有恰當的字眼來表述同時施教與受教,但假如做到了教學相長,我們的學校教育將會得到改善。)

一個共同進化關係中的施與受——同時施教與受教——使許多科學家想到了玩遊戲。簡單的兒童遊戲如「哪只手裡有鋼鏰兒?」具有「鏡子上的變色龍」般的遞歸邏輯。藏鋼鏰兒的人進入這樣一個無止境的過程:「我剛才把鋼鏰兒藏在右手裡,那麼現在猜的人會認為它在我的左手,因此,我要把它移到右手。但她也知道我知道她會怎麼想,於是,我還是把它留在左手裡。」

由於猜的人的思考過程也是如此,雙方就構成了一個相互預測對方意圖的遊戲。「哪只手裡有鋼鏰兒」的謎題和「鏡子上的變色龍是什麼顏色」的謎題相關聯。從這類簡單的規則衍生出的無限複雜性令約翰·馮·諾依曼非常感興趣。在二十世紀四十年代早期,這位數學家就研發出用於計算機的可編程邏輯,並同維納和貝特森一起開闢了控制論的新領域。

馮·諾依曼 發明了與遊戲有關的數學理論。他將遊戲定義為一場利益衝突,遊戲各方都試圖預測其他方的舉動,並採取一系列的步驟,以解決衝突。1944年,他與經濟學家奧斯卡·摩根斯特恩 合寫了一本書——《博弈論與經濟行為》。他察覺到,經濟具有高度共同進化和類似遊戲的特性,而他希望以簡單的遊戲動力學來闡釋它。舉例說,雞蛋的價格取決於賣方和買方彼此之間的預期猜測——我出價多少他才能夠接受,他認為我會出多少,我的出價應該比我能承受的價位低多少?令馮·諾依曼驚訝的是,這種相互欺詐、相互矇騙、效仿、映像以及「博弈」的無休止遞歸一般都能夠落實到一個明確的價格上,而不是無限糾纏下去。即使在股市上,當有成千上萬的代理在玩著相互預測的遊戲時,利益衝突的各方也能迅速達成一個還算穩定的價格。

馮·諾依曼最感興趣的是想看看自己能否給這種互動遊戲找出最理想的策略,因為乍一看來,它們在理論上幾乎是無解的。於是他提出了博弈論作為解答。位於加利福尼亞州聖塔莫妮卡市的蘭德公司是美國政府資助的智庫。那裡的研究人員發展了馮·諾依曼的工作,最後列出了四種有關相互猜測遊戲的基本變體。每一個變體各有不同的輸贏或平局的獎勵結構。這四個簡單的遊戲在技術文獻中統稱為「社會困境」,但又可以被看作是構造複雜共同進化遊戲的四塊積木。這四個基本變體是:草雞博弈、獵鹿博弈、僵局,以及囚徒困境。

「草雞博弈」是供魯莽的青少年玩的遊戲。兩輛賽車朝懸崖邊奔去;後摔出來的司機是贏家。「獵鹿」是一群獵手面對的難題,他們必須合作才能把鹿殺死,如果沒有人合作的話,那麼開小差各自去攆兔子會更好些。他們是在賭合作(高回報)還是背叛(低,但是肯定有回報)嗎?「僵局」是挺無聊的遊戲,彼此背叛收益最高。最後一個「囚徒困境」最有啟發性,在1960年代末成為兩百多例社會心理學實驗的測試模型。

「囚徒困境」是由蘭德公司的梅里爾·弗勒德 於1950年設計出來的。遊戲中,兩個分別關押的囚犯必須獨立決定否認還是坦白罪行。如果兩人都認罪,那麼兩人都會受到懲罰。如果兩人都否認的話,則都會被無罪釋放。但假如只有一人認罪,那麼他就會得到獎勵,而另一個則受到懲罰。合作有回報,但如果策略奏效的話,背叛也有回報。你該怎麼辦呢?

如果只玩一次,背叛對手是最合理的選擇。但當兩個「囚徒」一次又一次地玩,從中相互學習——也即「重複的囚徒困境」——遊戲的推演就發生了變化。你不能無視對手玩家的存在;不論是作為強制的敵手還是同夥,他都必須受到重視。這種緊密相連的共同命運與政敵之間、生意對手之間或者生態共生體之間的共同進化關係非常類似。隨著對這個簡單遊戲的研究的進一步深入,問題變成了:要想在長期內取得高分,面對「重複的囚徒困境」應該採取什麼樣的策略?還有,同無情或友善的各類玩家對壘時,該採取什麼樣的策略更容易取得成功呢?

1980年,密歇根大學政治學教授羅伯特·阿克塞爾羅德 組織了一次錦標賽,徵集了14條不同的用於「囚徒困境」的對策,以循環賽的形式看哪個對策最後勝出。最後獲勝的是一個最簡單的對策,叫做「一報還一報」,由心理學家阿納托爾·拉普伯特 設計。「一報還一報」是往複型策略,它以合作回報合作,以背叛回報背叛,往往產生一輪輪合作的周期。阿克塞爾羅德發現,重複遊戲能產生一次性遊戲所不具備的「未來陰影」之效果,這種效果鼓勵合作,因為對玩家來說,用現在對他人予以的合作來換取今後他人給予的合作是一個合理的選擇。合作的閃現使阿克塞爾羅德陷入沉思:「沒有中央集權的自我主義世界需要具備什麼條件才能湧現出合作的行為?」

1651年,托馬斯·霍布斯 宣稱:只有在善意的中央集權幫助下才能產生合作。這一傳統政治推論曾經在幾個世紀里一直被奉為圭臬。霍布斯斷言,沒有自上而下的管理,就只會有群體自私。不管經濟體制如何,必須有強大的勢力來推行政治利他主義。然而,在美國獨立和法國革命後逐步建立起來的西方民主制度表明,民意通達的社會可以在沒有中央集權強力干預的情況下發展合作機制。個人利益也能孕育出合作。在後工業化經濟里,自發合作是常有的事情。被廣泛採用的工業標準(既有質量方面的,也有協議方面的,如110伏電壓,還有ASCII碼),以及網際網路這個世界上最大的無政府形態的興起,都使得人們更加關注孕育共同進化合作所需的必要條件。

這種合作不是新時代的精神至上主義。相反,如阿克塞爾羅德所說,這是一種「不講交情、無需遠見的合作」——是大自然的冷規則,適用於許多層面,並催生了自組織結構。不管你願不願意,多少都得合作。

「囚徒困境」這類遊戲,不單只人類,任何自適應個體都可以玩。細菌,犰狳,或是計算機里的半導體器件,都可以根據各種回報機制,在眼前的穩妥收穫與未來的高風險高回報之間做出權衡。當長時間與相同的夥伴一起玩這個遊戲時,雙方既是在博弈,又是在進行某種類型的共同進化。

每一個複雜的自適應組織都面臨著基本的權衡。生物必須在完善現有技能、特質(練腿力以便跑得更快)與嘗試新特質(翅膀)之間作取捨。它不可能同時做所有的事情。這種每天都會碰到的難題便屬於在開發和利用之間作權衡。阿克塞爾羅德用醫院作了一個類比:「一般情況下你可以想見試用某種新葯比儘可能發掘已有成藥的療效回報來得低。但假如你給所有病人用的都是目前最好的成藥,你就永遠無法驗證新葯的療效。從病人個人角度來講最好不要試用新葯。但從社會集合體的角度出發,做實驗是必要的。」開發(未來收益)與利用(目前穩贏的籌碼)之比應該是多少,這是醫院不得不作的博弈。生命有機體為了跟上環境的變化,在決定應該在多大程度上進行變異和創新時,也會作出類似的權衡。當海量的生物都在做著類似的權衡並且互相影響時,就形成一個共同進化的博弈遊戲。

阿克塞爾羅德發起的、有14位玩家參與的「囚徒困境」循環錦標賽是在電腦上進行的。1987年,阿克塞爾羅德通過設定一套系統拓展了這個電腦遊戲。在系統里,有一小群程序玩家執行隨機產生的「囚徒困境」策略。每個隨機策略在和所有其它運行中的策略對陣一圈之後

上一章目錄+書簽下一頁