正文 5、咱們能不能聊聊弦外之音

對於大多數人而言，打字並不是一種理想的界面。假如我們能和電腦說話，那麼即使是最堅定的反機器分子，大概也會以更大的熱情來使用電腦。但是，目前的電腦仍然又聾又啞。這究竟是為什麼呢？

電腦在語音識別方面一直沒有多大的進展，主要原因不在於缺乏技術，而在於缺乏眼光。每當我在語音識別的成果展示會或產品廣告中，看到人們拿著麥克風說話時，我都很奇怪：難道他們真的忘了，說話最大的價值之一就在於能讓雙手空出來做別的事情嗎？當我看到人們把臉貼近屏幕講話時，我也很奇怪：難道他們忘了，能夠遙控是使用聲音的原因之一嗎？而當我聽到人們要求設計出能夠識別出各個獨立用戶的語音系統時，我問自己：他們是不是忘了，我們是在和個人電腦說話，而不是在和公用電腦說話？為什麼似乎每個人解決問題的著眼點都落在錯誤的方面呢？

原因很簡單。直到最近，我們一直被兩個帶有誤導性的觀念所驅使。第一個觀念是受到老式電話通信系統的影響，希望任何人在任何地方都能拿起話筒對電腦發號施令，而不需要和接線員對話，而且不管說話的人怎樣南腔北調都無關緊要。另外一個揮之不去的想法來自於辦公自動化——我們希望有一種會說話的打字機，我們對著它一口氣不停他說，它能一字不差地把我們的口述轉化成文字記錄下來。由於大家一直只把注意力放在這兩個方面，使我們拖延多年，始終無法實現一些更容易實現的（同時也是有用的）目標，即讓電腦在高度個人化而且互動的環境中，識別並了解對話內容。

我們也忽略了說話在文字以外的價值。舉例來說，今天的電腦需要人全神貫注。你通常都必須正襟危坐，同時把注意力放在互動的過程和互動的內容上。在走來走去時使用電腦，或在有多組對話時讓它參與其中的一組，簡直是不可能的。語音識別可以改變這一切。

能夠在一臂遠的距離之外使用電腦，是非常重要的事情。想像一下，假如你和別人說話的時候，他、她的鼻子尖老是湊到你的臉上，那是什麼感覺！我們通常都隔著一定的距離與別人講話，偶爾還會轉過身去同時做些別的事情。甚至有時已經走到別的地方而互相看不見了，還在說著話。這種情況屢見不鮮。我希望有一部在「聽力範圍」之內的電腦，它必須能把說話的聲音和周圍的雜音（例如空調或飛機在頭頂上飛過的聲音）區分開來。

講話勝於文字的另一個原因是，它可以有其他附帶方式來傳遞信息。家裡有小孩或養了寵物的人都知道，怎麼樣講話可能比講什麼話更重要。說話的語氣非常關鍵。例如，不管主人如何吹牛，說他、她寵愛的小狗如何如何，小狗似乎只對語調有反應，它內在的分析複雜辭彙的能力基本為零。

說出來的話除了字面的意思之外，同時傳遞了大量的信息。講話的時候，我們使用完全一樣的字眼，可以表達或激情洋溢、或嘲諷、或憤怒、或閃爍曖昧、或曲意逢迎、或精疲力竭等等不同的情緒。在電腦語音識別的研究中，大家都忽略了這些細微的差異，更糟的是，把它們視為暇疵，而不是特點。然而，正是這些特質，使說話成為比打字更豐富的輸入媒介。讓電腦「聽話」

假如你的外語能力還不錯，但是還不到應對自如的地步，你會發現，要聽懂飽受雜音干擾的新聞廣播實在很困難。相反，對於一個能把外語說得極為流利的人而言，這些雜音充其量只是擾人罷了。識別語言和理解語言，二者密不可分。

目前，電腦無法像你我一樣，先對某件事的意義建立共識，進而理解事物的意義。

雖然未來的電腦無疑會具有更多智能，目前我們仍不得不先設法解決機器的語音識別能力問題，而把機器的理解力問題擱置一邊。一旦把這兩項任務予以分化，路該怎麼走就很清楚了，我們必須把口語中的單字，變成電腦可讀的命令（and）。語音識別問題有三個變數：辭彙量、機器對說話者的依賴程度以及字的關聯性，所謂字的關聯性，是指機器能在多大程度上依照人們日常講話中的自然強弱節奏把單字含混在一起。

我們可以把語音識別的這三個方面想像成三維立體軸。在辭彙軸上，需要識別的字越少，對電腦而言就越容易。假如系統事先就知道說話的人是誰，問題就更簡單了。如果說話的人能一個字一個字分開發音，電腦就聽得更明白，識別起來也就更容易。

在這三條軸的起始點，我們可以找到少得不能再少、完全依賴於說話者語音的辭彙，念出這些辭彙的時候，字與字之間必須有明——顯——的——停——頓。

當我們順著任何一條軸移動的時候，也就是說，增加電腦所能識別的辭彙，讓系統能夠服務於任何說話者，或是容許字與字相連的程度越來越高，在這種情況下，每前進一步，都會使問題變得越來越困難。當到達三條軸的遠端時，我們期望電腦能夠識別任何人說的任何字，以及「印（任）何程度」的含混字。人們通常都認為，我們必須在兩條或三條軸上都達到最遠端時，語音識別系統才能對人類有用。這完全不對。

讓我們一個一個來考慮。談到辭彙多寡的時候，我們可能會問：多少才算多呢，500、5000還是5個字？但這個問題其實應該是：在任何時候，電腦存儲器中究竟需要多少它可以識別的單字？這個問題提示我們把辭彙根據上下文分成組，這樣在需要的時候就可以把大群片語放進存儲器中。當我要求我的電腦接聽電話時，它會把信息輸入我的電子電話本。當我計畫到什麼地方旅行時，它則把地名輸入到上面。

假如你把辭彙量看成在任何情況下都需要的一組字——稱為「字窗」（wordwindows）一那麼電腦只需要從一個小得多的字音庫中揀字就可以了，這一字音庫只要有500個字左右就夠了，不需要5個那麼多。

人們所以假設需要有能夠識別各個獨立講話人的語音識別系統，是由於這種功能是過去電話公司的一項要求，電話公司的中央電腦必須能聽懂每個人的話，提供一種「通用服務」。今天，電腦的普及率更高，而且更加個人化。我們在網路的外圍——通過個人電腦、話筒，或經由一小塊智能卡（smartcard）的協助，能夠完成更多的語音識別。

如果我想在電話亭里和一部航空公司的電腦談話，我可以先接通我的家用電腦或拿出我的袖珍型電腦，讓它先替我把聲音轉換成機器看得懂的信號，然後，再和航空公司的電腦聯絡。

第三個問題是字音的模糊性問題。和電腦說話的時候，我們不希望像一個觀光客對外國小孩說話一樣，誇張地吐出每個單字，而且每念一個字，都停頓一下。因此這個軸最具挑戰性。但是我們也可以把問題稍稍簡化，也就是把語言看成許多字一起發出的聲音，而不是許多單個字的聲音。事實上，處理這種連成一片的字音，很可能正是你的電腦走向個人化的必經過程和必須接受的訓練的一部分。

當我們把講話看成一種互動的和對話的媒介時，我們離語音識別中最容易的那部分已經沒有多遠了。字典里找不到的字講話這種媒體常常充斥著字典里找不到的字音。言談不僅比白紙黑字更多姿多彩，而且對話中的特點，例如形體語言這樣的非文字語言的運用，往往能使對話浮現額外的意義。

1978年，我們在麻省理工學院採用了一套先進的、依賴於說話者發音的、能夠識別連續語音的語音識別系統。但是就像當時和現在的許多同類系統一樣，當說話者的聲音中帶有哪怕些微的緊張時，系統就會失誤。當研究生向我們的贊助者演示這套系統時，我們希望它表現得完美元缺。結果，由於過度焦慮，作演示的研究生聲音綳得緊緊的，系統也就完全失靈。

幾年以後，另外一個學生想到一個絕妙的主意：找出用戶說話時會在什麼地方停頓，並且設走電腦程序，讓電腦在適當的時候發出「啊哈」的聲音；這樣，當一個人和機器說話的時候，機器每隔一會幾就會發出「啊哈——」、「啊——哈」或「啊哈」。這些聲音產生了極大的安撫效果（就好像機器在鼓勵使用者繼續對話），使用者變得比較放鬆，而系統的表現也突飛猛進。

這個觀念體現了兩點重要的意義：第一，並非所有的發音都需要有字面上的意義，在溝通中才有價值；第二，有些聲音純粹只是對話中的禮儀。當你接電話的時候，沒有以適當的間隔對來話人說「嗯」，來話人會變得很緊張，而且最終會探問：「喂，你在聽嗎？」「啊哈」或「嗯」的意思不是「是」、「否」或「也許」它基本上是在傳達一個比特的信息：「我在這裡」。並行的表達想像一下這樣的情景：你和一群人圍坐在一張桌子旁，同桌的人除了你以外都說法語。你只在中學粗粗修過一年蹩腳的法語、突然有個人轉過頭來對你說：「還要來點幾酒嗎？」你完全聽懂了。接著，這個人把話鋒一轉，談起法國的政治來了。除非你能說流利的法語，否則就跟聽外星人講話一樣（而且即便你法文流利，也不一定