第三部分 大數據時代的管理變革 07 風險:讓數據主宰一切的隱憂

1989年,柏林牆倒塌,之前的近40年間,民主德國國家安全局「Stasi」僱用了十萬左右的全職間諜,時刻在街上開車監視著成千上萬民眾的一舉一動。他們拆看信件、偷窺銀行賬戶信息、在民眾家中安裝竊聽器並且竊聽電話。他們還會讓情人、夫婦、父母和孩子相互監視,導致人與人之間喪失了最基本的信任。結果,詳細記錄普通人最私密生活信息的文件至少包括了3900萬張索引卡片和鋪開足有113公里長的文檔。民主德國是一個史無前例的受到如此全面監控的國家。

這是一個典型的滑坡,可能直接導致《少數派報告》中的情況成為現實——我們將生活在一個沒有獨立選擇和自由意志的社會,在這裡我們的道德指標將被預測系統所取代,個人一直受到集體意志的衝擊。簡單地說,如果一切都成為現實,大數據就會把我們禁錮在可能性之中。

但是在危急時刻,政府領導可能會認為只知道哪裡流感疫情最嚴重還遠遠不夠。如果試圖抑制流感的傳播,就需要更多的數據。所以他們呼籲大規模的隔離,當然不是說隔離這個地區的所有人,這樣既無必要也太費事。大數據能給我們更精確的信息,所以我們只需隔離搜索了和流感有最直接關係的人。如此,我們有了需要隔離的人的數據,聯邦特工只需通過IP地址和移動GPS提供的數據,找出該用戶並送入隔離中心。

與數據為伴的人可以用一句話來概括這些問題,「錯誤的前提導致錯誤的結論。」有時候,是因為用來分析的數據質量不佳;但在大部分情況下,是因為我們誤用了數據分析結果。大數據要麼會讓這些問題高頻出現,要麼會加劇這些問題導致的不良後果。

20世紀,我們見證了太多由於數據利用不合理所導致的慘劇。比如1943年,美國人口普查局遞交了地址數據來幫助美國政府拘留日裔美國人(當時它沒有提交街道名字和具體街號的數據,居然幻想著這樣能保護隱私);荷蘭著名的綜合民事記錄數據則被納粹分子用來搜捕猶太人;納粹集中營里罪犯的前臂上刺青的五位數號碼與IBM的霍瑞斯穿孔卡片上的號碼是一致的,這一切都表明是數據處理幫助實現了大規模的屠殺。

麥克納馬拉是一個執迷於數據的人。20世紀60年代早期,在越南局勢變得緊張的時候,他被任命為美國國防部長。任何事情,只要可以,他都會執意得到數據。他認為,只有運用嚴謹的統計數據,決策者才能真正理解複雜的事態並做出正確的決定。他眼中的世界就是一堆桀驁不馴的信息的總和,一旦劃定、命名、區分和量化之後,就能被人類馴服並加以利用。麥克納馬拉追求真理,而數據恰好能揭示真理。他所掌握的數據中有一份就是「死亡名單」。

當然,目前所採集的大部分數據都包含有個人信息,而且存在著各種各樣的誘因,讓我們想盡辦法去採集更多、存儲更久、利用更徹底,甚至有的數據表面上並不是個人數據,但是經由大數據處理之後就可以追溯到個人了。

儘管如此,《紐約時報》還是在幾天之內通過把「60歲的單身男性」、「有益健康的茶葉」、「利爾本的園丁」等搜索記錄綜合分析考慮後,發現資料庫中的4417749號代表的是喬治亞州利爾本的一個62歲寡婦塞爾瑪·阿諾德(Thelma Arnold)。當記者找到她家的時候,這個老人驚嘆道:「天吶!我真沒想到一直有人在監視我的私人生活。」這引起了公憤,最終美國在線的首席技術官和另外兩名員工都被開除了。

比方說,賓夕法尼亞大學教授理查德·伯克(Richard Berk)建立了一個大數據模型,他聲稱這個模型可以預測一個判緩刑或者假釋的人一旦提前釋放會不會再次殺人。他輸入了海量的特定案件變數,包括監禁的原因、首次犯罪的時間、年齡、性別等個人數據。伯克說他的模型對未來行為預測的準確率可以達到75%。這聽起來似乎還不錯。但是,這也意味著如果假釋委員會依靠他的分析,就會在每4個人中出現一次失誤。

不幸的是,我們的擔憂一語中的。大數據的價值不再單純來源於它的基本用途,而更多源於它的二次利用。這就顛覆了當下隱私保護法以個人為中心的思想:數據收集者必須告知個人,他們收集了哪些數據、作何用途,也必須在收集工作開始之前徵得個人的同意。雖然這不是進行合法數據收集的唯一方式,「告知與許可」已經是世界各地執行隱私政策的共識性基礎(雖然實際上很多的隱私聲明都沒有達到效果,但那是另一回事)。

詹姆斯·斯科特(James Scott)教授是耶魯大學政治學和人類學教授,他在《國家的視角》(Seeing Like a State)一書中記錄了政府如何因為它們對量化和數據的盲目崇尚而陷人民的生活於水深火熱之中。

然而,我們要探討的主要是大數據是否改變了這種威脅的性質,而不是是否加劇了這種威脅。如果僅僅是加劇了這種威脅,那麼我們現在採用的保護隱私的法律法規依然是有效的,我們只需要付出加倍的努力來確保有效性就可以。然而,倘若威脅的性質已經改變了,我們就需要尋求新的解決方案。

比方說,如今在美國和歐洲部署的一些智能電錶每6秒鐘採集一個實時讀數,這樣一天所得到的數據比過去傳統電錶收集到的所有數據還要多。因為每個電子設備通電時都會有自己獨特的「負荷特徵」,比如熱水器不同於電腦,而它們與Led大麻生長燈 又不一樣,所以能源使用情況就能暴露諸如一個人的日常習慣、醫療條件和非法行為這樣的個人信息。

在美國在線的案例中,我們被我們所搜索的內容出賣了。而奈飛公司的情況則是因為不同來源數據的結合暴露了我們的身份。這兩種情況的出現,都是因為公司沒有意識到匿名化對大數據的無效性。而出現這種無效性則是由兩個因素引起的,一是我們收集到的數據越來越多,二是我們會結合越來越多不同來源的數據。

其實,卓越的才華並不依賴於數據。史蒂夫·喬布斯多年來持續不斷地改善Mac筆記本,依賴的可能是行業分析,但是他發行的iPod、iPhone和iPad靠的就不是數據,而是直覺——他依賴於他的第六感。當記者問及喬布斯蘋果推出iPad之前做了多少市場調研時,他那個著名的回答是這樣的:「沒做!消費者沒義務去了解自己想要什麼。」

谷歌對數據的依賴有時太誇張了。瑪麗莎·邁爾(Marissa Mayer)曾任谷歌高管職位,居然要求員工測試41種藍色的陰影效果中,哪種被人們使用最頻繁,從而決定網頁工具欄的顏色。谷歌的數據獨裁就是這樣達到了頂峰,同時也激起了反抗。

20世紀70年代,羅伯特·麥克納馬拉一直擔任世界銀行行長。20世紀80年代,他儼然變成了和平的象徵。他為反核武器和環境保護搖旗吶喊。然後,他經歷了一次思想的轉變並且出版了一本回憶錄《回顧:越戰的悲劇與教訓》(Irospect:The Tragedy and Lessons of Vietnam),書中批判了戰爭的錯誤指導思想並承認了他當年的行為「非常錯誤」,他寫道,「我們錯了,大錯特錯!」但書中還是只承認了戰爭的整體策略的錯誤,並未具體流露出對數據和「死亡人數」飽含感情的懺悔。他承認統計數據具有「誤導或者迷惑性」,「但是對於你能計算的事情,你應該計算;死亡數就屬於應該計算的……」2009年,享年93歲的麥克納馬拉去世,他被認為是一個聰明卻並不睿智的人。

互聯網出現之前,如艾可飛和益百利這樣的專業數據收集公司就採集、記錄了全球範圍內大約幾百萬人口的數據,而它們提供的每個人的個人數據就多達好幾百份。而互聯網的出現使得監視變得更容易、成本更低廉也更有用處。如今,已經不只是政府在暗中監視我們了。亞馬遜監視著我們的購物習慣,谷歌監視著我們的網頁瀏覽習慣,Twitter竊聽到了我們心中的「TA」,Facebook似乎什麼都知道,包括我們的社交關係網。

但是,主要的問題並不是出在社會需要面對更多威脅上,而是我們在人們真正犯罪之前對他進行懲罰否定了人的自由權利。我們永遠不會知道這個受懲罰的人是否會真正犯罪,因為我們已經通過預測預先制止了這種行為,如此一來,我們就沒有讓他按照他的意願去做,但是我們卻依然堅持他應該為自己尚未實施的未來行為付出代價,而我們的預測也永遠無法得到證實。

大多數情況下,我們已經在以預測之名採用大數據分析。它把我們放在一個特定的人群之中來對我們進行界定。保險精算表上指出,超過50歲的男性更容易患前列腺癌,所以你如果不幸正好處於這個年齡段,就需要支付更多的保險費用,即使你根本就沒得過這個病。沒有高中文憑的人更容易償還不起債務,所以如果你沒有高中文憑,就可能貸不到款或

上一章目錄+書簽下一頁