講座|黑爪:AI技術與大時代下的個人隱私


講座|黑爪:AI技術與大時代下的個人隱私

2021-01-12 澎湃新聞

前不久,由尋麓書館發起的傳燈人線上分享會第十期,邀請了大數據專家黑爪爲讀者分享「AI技術與大時代下的個人隱私」。活動中,黑爪從簡單的技術原理與應用、法律與倫理等方面,對AI技術現狀進行了梳理和探討。以下是對此次分享內容的整理。

過去20年,我一直從事數據挖掘和機器學習方面的工作,具體的工作是自然語言處理在電子商務和客戶服務方面的應用,廣泛一點地說,就是具體行業的機器翻譯。我在業餘時間也做文學翻譯,目前爲止有六本譯著已經出版。

今天我將從廣泛的機器學習原理與大家交流關於「人臉識別」這個主題。「人臉識別」這個主題涉及面很廣,專業性也比較強,我將從三個部分進行分享:AI熱點、熱點背後的討論、AI技術原理。

AI人臉識別的熱點

6月8日,IBM執行長Arvind Krishna就種族平等議題給加州參衆兩院寫了一封公開信,引起了不小的轟動。按照技術巨頭CEO的做派來看,這封信的筆調和語氣都比較戲劇化,信中充滿激情,一提筆就以IBM的光榮歷史開場。信里寫道,IBM比民權法案(Civil Rights Act)通過的歷史都早了十年。民權法案於1964年通過,而IBM於1953年就邁出了這勇敢的一步,他們拒絕在公司執行吉姆·克勞法,他們要給不同種族、膚色、信仰的人才提供平等的機會。

接著他寫道,70年以來一直到今天,人們還在爲不平等而抗爭,本不應如此。他提議要與國會一起努力共同推進正義與和平。這裡我們可以注意兩點:一是要和國會一起,他認爲,單憑企業的力量已經不夠,需要國會的支持並立法;二是企業的責任和義務,包括企業監督和提醒立法機構的義務。

具體如何推進呢?他提出,集中於三個關鍵的政策領域。除了警察改革之外,另外兩點談的都是作爲高科技企業相關的本分。其中一點是拓展技能教育機會,另外一點是強調了企業應負責任地使用技術,這點引發了大量的關注。同時他宣布,IBM將徹底放棄人臉識別及分析軟體,並且強調,他們堅決反對使用包括人臉識別在內的技術進行大規模監控,進行種族劃分,以及對基本人權和自由的侵犯。這些宣稱在有人看來會覺得算不了什麼大事,IBM從來就不是人臉識別的大玩家,宣布放棄自身的利益對社會的影響也不會太大。

這件事過了兩天,亞馬遜緊接著宣布:暫停向警察機構提供人臉識別技術服務,並且表示,希望爲期一年的暫停可以使國會有充足的時間執行修改適當的規則,通過更好的法律對技術的應用加以規範。

IBM、亞馬遜這些科技巨頭的宣告無疑將此事推向了高潮。

幾天後,微軟也加入了要求對人臉識別技術應用進行嚴格限制的企業行列。微軟聲明,在國會對人臉識別技術使用進行規範之前,將不會向警察部門出售面部識別技術。微軟總裁布拉德·史密斯在接受《華盛頓郵報》採訪時說道:這件事已經不能單靠企業來完成,只有這樣(通過國會立法)我們才能保證保護民衆的生命安全。

我們不妨想想,三個行業巨頭能用這種嚴肅和強硬的態度說到保護民衆生命這一點,絕不是一夜之間發生的事。2019年的舊金山、伯克利、奧克蘭市議會已經斷然禁止警察部門使用FRT(Facial Reconciliation Technology,人臉識別技術)。

人臉識別(圖片來自網絡)

人臉識別技術到底經歷了哪些討論呢?去年4月,微軟研究院的研究員盧克·斯塔克發表了一篇題目爲《人臉識別是AI領域的「鈽」元素》的文章。鈽元素是1941年美國化學家西博格發現的重要元素,可以用於核爆炸、核反應堆的燃料,它在元素周期表中的符號是Pu,鈽元素本身只在極爲專業的領域才有用,風險極大,因此在國際上被嚴格控制,只要用不到就絕不生產。人臉識別技術的危險性用鈽元素來比喻也非常貼切,它對人類社會的健康危害極大,所以對其使用應當嚴格控制。

此言一出,各方面對類比的反對聲音也非常多。有人認爲這個說法不僅是危言聳聽,也有人認爲根本是無稽之談。斯塔克和他的研究夥伴霍夫曼(華盛頓大學信息學院的副教授)一起對它的危害性進行研究,想要證明類比是有道理的。通過將人臉識別技術與鈽元素作比較,這兩位學者在原本的爭論上補充了兩點,我認爲還是挺有見地的。技術層面上,人臉識別技術具有無法克服的漏洞,漏洞的產生與這項技術怎樣系統化地處理人臉直接相關,這個漏洞的產生加強了性別和種族的分類錯誤,就註定了對社會有害。這樣的風險超過它能給我們帶來的利益,很容易讓人聯想到核技術。

在美國現有的執法部門、私營企業以及政府所部署的大量大規模的監控工具中,人臉識別技術對種族的正義、不受干擾等這種最簡單基本的權利都構成了威脅,這種技術如果掌握在執法部門的手中,對異議、公民概念、民主概念都會構成一定威脅,甚至削減人們維護個人隱私的能力。人臉識別技術從發明伊始就與社會的各種問題糾纏在一起,這與技術發明者、實踐者的初衷無關。正因爲這個技術的先天缺陷,政府應當對它進行嚴格的條例規範,嚴格到可以禁止它進入任何實際應用的地步。

2018年,美國東北大學法學院的教授伍德羅·哈佐格在這方面做了大量的研究,他與羅切斯特理工大學的伊萬·賽林格教授做了一份聯合研究報告,他們把人臉識別技術稱爲人類發明的最危險監控工具,並且呼籲對其全面禁止,理由是人臉圖形很難隱藏或改變。西方社會的駕照系統有人臉與名字匹配的資料庫,在任何地方拿出駕照與資料庫進行對比就能辦事。另外,視頻監控機制也非常便宜和普及。最關鍵的是,與其他的生物特性不太一樣的地方是,人臉是個人身份和社交生活的核心要素,我們無法逃避,更不可能把臉藏起來。我們想要的存在於監控系統外的自由就被這僞裝成禮物的人臉識別技術破壞。

從技術和概念層面講,人臉識別技術最根本的問題是它把數值跟人臉關聯起來。而人臉識別或其從視覺上把人體分類的系統都不可避免地在使用「種族」參數,這個系統是現成的,「種族是非常精確的分類」,這是所有人根深蒂固的概念。幾百年來,在科學及管理領域中,把人類簡化成一組很清晰、可操縱的標識,種族化手段非常方便、好用,也能達到一定的準確值。

人臉識別是基於對面部比例進行快速比較,從而找到並確定ID值算法。問題在於FRT是如何學習做出識別並如何訓練這種算法。

FRT程序在運行前,會掃描和評估數以萬計的人臉圖像來進行訓練,在這個數據集裡包含了人臉數據的組成情況。除此之外,FRT程序通常要求圖像有很好的光線,要全臉或者接近全臉。但很多刑事調查中所使用的圖像根本達不到要求,爲了讓圖像對FRT的識別有用,就必須對圖像進行處理,對圖像大幅度的修正就在引入誤差,這就存在問題。人臉識別還包括判斷、提取、分類,再將它與事先準備好的資料庫進行比較,比較的過程就是爲人臉示意圖賦值的過程。

人臉識別技術:強制可見性及其對隱私和個人可識別圖像保密性的影響,伊恩·伯爾,施普林格出版社(Springer)2020年3月版

熱點背後的討論

人臉識別具體有哪些應用呢?我們生活中熟悉的有iPhone解鎖,刷臉進入大樓或房間。這項技術的天生缺陷導致了它的不準確性。如果在解鎖iPhone時出了問題,或許你還可以通過郵件、語音、密碼等方式解鎖,但在追蹤識別嫌犯時,不準確的識別導致的後果會非常嚴重。

亞馬遜的人臉識別系統是Rekognition,有一次把奧普拉·溫弗瑞(美國脫口秀女王)識別成男性。這件事大家還可以當成段子一笑了之。除此之外的另一件事,另一個面部識別系統把一位女大學生標註成斯里蘭卡爆炸案的嫌犯。事情發生時,這個女生正在9000英里外的布朗大學上學,被警方標註成嫌犯後,這個女生多次收到死亡威脅。

有人會說技術問題總會得到改善,比如給人工智慧系統足夠的訓練,讓這個系統接觸更廣泛、更具代表性的人臉資料庫,這些算法的偏差問題肯定能消除。暫且不說這是非常完美的假想,實際上這並不是單純的技術問題,即使我們能做出對人進行準確分類的完美系統,它仍然是危險的。

比如,智能警務系統是以過去犯罪模式的數據來預測未來可能發生犯罪的地方,但犯罪報告數據本身就嚴重受到來自警察個人、部門的影響,它並不是中立的數據。這些數據是對相關部門運作方式以及部門傾向的反映,也是地方州、聯邦政府利益的反映。所以,這些數據它不可避免地帶有機構和個人的偏見。

這就意味著,再優秀的數據技術都是帶有偏見的。它完美地複製了帶有偏見的警務模式,這些數據對系統的糾錯毫無幫助。如果有一個可以完美識別任何個體毫無偏差的系統,可能只會更糟糕,這意味著我們沒有了個人隱私。所以,人臉監控在有效和無效時它都是危險的,這也是越來越多的人呼籲政府對人臉技術的使用加以限制的原因。

人類對於AI危害的預測

目前來講,沒有任何非常明確、規範的法律對人臉識別技術進行有效監管,這也是IBM、亞馬遜、微軟加入這件事的起因。不過,由於FRT不能提供準確的結果,已經阻止過執法機構放棄使用這項服務。

2016年,舊金山警察局決定不購買這項技術服務,前來投標的供應商沒有一個達到他們要求的準確性。除此之外,這項技術常常被濫用。另一方面,很多警察也並不擅長使用這些系統。美國各地都曾出現警察對資料庫進行不當搜索而受到懲戒的案例,比如,他們去搜索法律糾紛中的對手信息或者爲朋友家人搜索他們在正常渠道下無法得到的信息。如此一來,品行不端或意識不夠的警員,利用它進行作惡的空間恐怕無法想像。

這讓我想到了一部英劇,叫做《真相捕捉》(

捕獲

),劇情由一個被指控犯罪的人轉向另一個人,一環套一環,最後是第三個人犯的罪。它有一點燒腦,也很挑戰傳統,然後我想提一下一個新詞叫「deepfake」,沒有統一的翻譯,可以說是「僞顯示」,也可以說叫做「深度造假」。劇情中有一個deepfake的畫面,就是被人製造出來但並沒有發生在犯罪現場的視頻。

英劇《真相捕捉》劇照

8月初,英國工程技術學會IET(Institution of Engineering and Technology)在網站上刊登了一篇名爲《騙術,名列最令人擔憂的AI犯罪榜首》的文章。倫敦大學學院UCL的研究人員把未來15年內人工智慧可能被用於促進犯罪的20種方式列了出來,按排列的情況看,AI合成的媒介內容被認爲是最有危害性的一項。這個研究小組由31名專家組成,包括學者、國防專家和法律人士,通過兩天的討論,從潛在的危害性、犯罪收益、實施的難易程度、阻止犯罪的難度,對利用AI犯罪的行爲進行了排序。他們從報紙、新聞、小說等流行文化中歸納出20種AI犯罪,如破壞人工智慧控制系統、人工智慧合成假新聞、截取數據達到勒索目的等。AI合成的音頻或視頻,比如我前面說的「deepfake」就被列爲最令人擔憂的一項,它危害最嚴重,易於實現,難以阻止。由於最基本的「deepfake」內容很容易通過開源工具來創建,這就降低了犯罪分子的准入門檻。它本身的欺騙性已經很大,更大的影響是它會導致我們未來對視聽證據的普遍不信任,造成了更深層次的社會危害。

我再次想起了英劇《真相捕捉》,這部劇很好地表現了技術應用在法律倫理方面對社會產生的影響,讓大家有了社會危機意識,是現實很好的反映。劇里有一句台詞是:「

公衆非常滿足於自己的無知

」(The public are content in the ignorance and a lot better of that way),覺得這樣最好,我不想知道那些糟心的事,但是這樣的好日子也許已經成爲過去時了。

(本文來自澎湃新聞,更多原創資訊請下載「澎湃新聞」APP)