正文 08 解讀基因組:進化現場

以前我一直希望人類基因組的序列在完全解開後,會有72415個基因。我之所以特別看重這個數目,跟人類基因組計畫第一個驚人的發現有關。1999年12月,第一個完成定序的染色體是位於兩大定序里程碑(10億和20億個鹼基序列)之間的第22號染色體。儘管它很小,在整個基因組中只佔1.1%,但仍長達3340萬個鹼基對。由小窺大,這是我們首次對基因組的全貌有概括的了解;如同《自然》雜誌的評論家所言,這就像「第一次看到新星球的表面或地景」。最有趣的是染色體上基因的密度。以第22號染色體作為整個基因組的縮影,應該是很合理的,所以照理說我們會在它的序列里發現1.1%的人類基因、換句話說,教科書上估計人類基因的總數約為10萬個,照這樣推算,第22號染色體應該大約有1100個基因。但是我們卻只在它上面發現545個基因。這似乎強烈暗示,人類基因組不像我們原先所以為的有那麼多基因。

人類的基因數目突然成為熱門話題。2000年5月,在冷泉港實驗室一場有關基因組的會議上,來自桑格中心,負責以計算機分析基因組序列的伯尼(Ewan Birney),設下他稱之為Genesweep的賭局。這場賭局賭的是人類的基因總數,等2003年完成定序時就可以知道大概的正確數字,屆時誰猜的數目最接近,誰就是優勝者。伯尼會成為人類基因組計畫的地下賭注經紀人一點也不奇怪,因為數字正是他的專長。從伊頓公學畢業後,他借住我位於長島的房子,花了一年時間解決生物學上的定量問題。英國年輕人在高中畢業後上大學前的那一年,多半會選擇到喜馬拉雅山旅行或是到里約熱內盧的酒吧打工,但他的選擇大不相同。伯尼在冷泉港實驗室工作時就寫出兩篇重要的研究論文,那時他甚至還沒進牛津呢。

伯尼最初要求的賭資是1美元,但是隨著讓我們更接近最終數字的預測數目一發表,賭資也跟著提高。我從一開始就加入,所以只花了1美元押在72415上。這個數目可不是亂選的,我以第22號染色體的結果為本,考慮教科書10萬個的說法和當時的預測值5萬個後,才折中地選了它。

或許惟一會跟基因數一樣引起這麼多無聊臆測的問題,是我們所定序的究竟是誰的基因。原則上,這是機密數據,所以拿這個來打賭的話,大概不會有輸贏。就公共人類基因組計畫來說,我們定序的DNA樣本來自紐約州布法羅附近一些隨機選出的人,樣本的處理也是在相同的地區進行。所謂處理是先分離出DNA,再殖入人造細菌染色體,以便建立圖譜與定序。起初賽雷拉基因公司宣稱,他們的材料也是取自六個匿名捐贈、來自多種文化的人,但是在2002年,溫特忍不住把謎底公諸於世,宣稱他們定序的主要基因組其實是他的。如今,那個序列成了溫特跟賽雷拉之間僅余的聯結。雖然人類基因組定序很吸引人,又有新聞價值,但是看來並沒有什麼商業效益,因此賽雷拉後來轉型為製藥公司,並在2002年和它的創辦人分道揚鑣。溫特又成立了兩家新公司,一家研究現代遺傳學引起的道德議題,另一家利用細菌基因組來尋找新的再生能源。

在人類基因組圖譜出爐後,已證實第22號染色體的基因密度並沒什麼出奇之處。其實,以它的大小小來說,擁有545個基因還算蠻多的。大小跟它差不多的第21號染色體,只找出236個基因。根據現在的估計,在人類的全套24條染色體(22條+X+Y)上,基因總數也只不過2萬多個。當然,尋找基因的工作還沒結束,我們還會發現更多基因,但基因總數絕對遠在3萬以下,距離從前教科書說的10萬就更遙遠了。

基因總數究竟會是多少?我們只能等著瞧。事實上,尋找基因不是這麼簡單:蛋白質編碼區全是由A,T,G,C構成的鏈,而且這些鏈深埋在基因組其他的A,T,G,C之間,一點也不明顯。我們也必須記得,人類基因組大約只有2%為蛋白質編碼,至於那些被稱為「垃圾」的部分,則是由顯然不具功能、長短不一的片段所構成,其中還有許多會重複出現。就連基因本身也含有垃圾片段;在有許多非編碼片段(即插入序列)的情況下,基因有時佔有一長段綿延的DNA,而編碼片段就像是分子高速公路上一段段荒涼道路之間零星、孤立的城鎮。目前已知最長的人類基因是肌萎縮蛋白(dystrophin,它發生突變時會引起肌肉萎縮症),長達240萬個鹼基對,其中只有11055個(僅占基因的0.5%)為蛋白質編碼,其餘部分構成這個基因的79個插入序列(典型的人類基因有8個插入序列)。基因辨識工作之所以困難,原因就在於基因組這種龐雜的結構。

在我們對老鼠基因比較了解後,要尋找人類基因已沒有那麼棘手,這都要歸功於進化:如同所有哺乳動物的基因組,人類和老鼠的基因組中具有功能的部分相當類似,從人與鼠在遠古的共同祖先一直到現在,這些部分並未產生太大的歧異。相對之下,那些由垃圾DNA組成的部分向來走在進化的最前端;由於不像編碼片段有自然選擇的監督,因此垃圾區累積了大量突變,人與鼠在遺傳上的歧異程度也以這些區段為最高。因此尋找人與鼠在基因組序列中的相似部分,成了辨識基因具有功能的區段的有效方法。

完成河豚基因組的草圖也有助於辨識人類基因。這種日本老饕最愛的魚含有強烈的神經毒素;老練的廚師會先把含有毒素的器官移除,所以食客只會覺得嘴裡有點麻而已。但是每年大約有80人因河豚的製作過程不周而死亡,因此日本法律明文禁止皇室享受這道美食。10多年前,布雷納開始「愛上」河豚,至少是把它們當做研究基因的對象。河豚基因組的規模只有人類的1/9,但所含的垃圾區段少得多:它的基因組中約1/3負責為蛋白質編碼。在布雷納的領導下,河豚基因組的草圖只花了1200萬美元左右的經費就完成了,以基因組定序的標準來說,算是很便宜。目前看來,河豚基因數大約在3.2萬到4萬之間,和人類差不多。有趣的是,河豚基因的插入序列數目雖然跟人類及老鼠基因的差不多,但長度通常短得多。

根據目前的估計,人類基因數大約是在3.5萬(註:原書如此,現在一般認為是在20000-25000之間)左右,即使基因數已大幅向下修正,但對一般人來說,光看這個數字可能會給他們一種錯覺,有點誇大了我們基因的複雜程度。在進化過程中,某些基因會衍生出一組相關的基因,形成一群功能類似、但有細微差異的基因。這些所謂的「基因家族」(gene family)完全是意外的產物:在製造卵細胞或精細胞的過程中,某染色體的一個區段無意間遭到複製,使得這個染色體上的某個特定基因多了一個複本。只要其中一個基因能發揮功能,自然選擇就不會去檢查另一個,而隨著突變不斷累積,這個額外的基因可能走上歧異的進化道路。偶爾這些突變會造成基因獲得新的功能,通常是與原基因密切相關的功能。人類基因所負責的「主題」,種類並不太多;事實上,我們許多基因的主題都一樣,只是略有變化而已。例如我們有575個基因負責編碼不同形式的蛋白質激酶(protein kinase enzyme),亦即在細胞周圍傳遞訊號的化學使者。大約有900個人類基因讓我們有嗅聞的能力:它們編碼的蛋白質是氣味受體,每種受體辨識一種不同氣味的分子或一整類分子。這900個偵察氣味的基因大體上也存在於老鼠體內,但其中有個差異:老鼠已經適應以夜行為主的生活,對嗅覺的需要程度較大——自然選擇篩選出嗅覺比較好的老鼠,並讓這900個氣味基因中的大多數持續運作。然而,人類的這些基因大約有60%已經在進化過程中退化。可能的原因是:當我們對視覺的依賴增加時,我們便不再需要那麼多嗅覺受體,所以當突變造成許多嗅覺基因無法製造正常的蛋白質,使我們的嗅覺變得比其他恆溫動物差時,自然選擇並沒有插手。

那麼,我們的基因數跟其他生物的基因數相比如何?

就基因的總量而言,我們也就比雜草類的植物多一點點而已!跟線蟲比,就更令人吃驚。線蟲只有959個細胞(人類估計約有100兆個細胞),其中302個是神經細胞,構成線蟲極度簡單的腦(我們的腦有1000億個神經細胞),我們和線蟲在結構的複雜度上有天壤之別,但我們的基因總數還不到線蟲的兩倍。我們要怎麼解釋這令人困窘的數字?其實我們一點也不必不好意思:看來我們人類就是能用這麼一套遺傳硬體來做更多的事。

事實上,我認為智力與低基因數之間有一種相互關係。我的看法是:所謂聰明,就是像我們或果蠅一樣,擁有一

上一章目錄+書簽下一頁