送交者: 一草 2017年05月16日13:46:19 於 [五味齋] 發送悄悄話

逸草：這爭論有點趣。回應可以指出“過度解讀”，但沒必要指責“既不專業，也很傲慢”，這倒像是“扣帽子”。

轉自“澎湃新聞”

谷歌研究員質疑“看臉識罪犯”，交大教授撰文：我被扣帽子了

2017-05-16 13:43:47

據澎湃新聞5月15日報道，去年11月，一篇“看臉識罪犯”的論文令學術界和輿論界炸開了鍋。

這篇上傳在預印本網站arXiv上的論文題為《基於面部圖像的自動犯罪概率推斷》（Automated Inference on Criminality using Face Images）。在實驗中，上海交通大學教授武筱林及其博士生張熙選取了1856張中國成年男子的面部照片，其中730張是已經定罪的罪犯身份證照片（330張來自網上的通緝令，400張由一家簽署過保密協議的派出所提供），其餘1126張是在網絡上抓取的普通人照片。經過機器學習，算法鑑別出犯罪嫌疑人的準確率達到89%。

研究使用的照片樣本。a組為罪犯，b組為非罪犯

此後，武筱林收到了雪片般飛來的郵件，有些就學術問題進行了交流，有些則直接敦促他“撤稿”。而在半年之後，三名美國作者撰寫萬字長文，向武筱林隔空喊話，指責其研究在搞“科學種族主義”。

上述三名作者中，Blaise Agüera y Arcas是機器學習領域的著名工程師，2013年從微軟跳槽到谷歌；Margaret Mitchell同樣是谷歌的人工智能研究員；Alexander Todorov則是普林斯頓大學的神經科學教授。

這篇洋洋灑灑的萬字長文，從提出“天生犯罪人”理論的意大利外科醫生龍勃羅梭，寫到對猶太人進行面相研究的納粹教材，暗指武筱林的研究是這些“前輩”的繼任者。

武筱林

武筱林在文章中，三名美國作者在技術層面提出了一些質疑，譬如實驗樣本數據集過小，容易造成過擬合；罪犯組照片的着裝更為隨意，而非罪犯組的照片很多都穿着襯衫；此外，非罪犯組照片更多地在微笑。但文章最核心的擔憂是，由於人類司法系統中存在一些歧視（譬如美國司法對白人和黑人存在量刑歧視），用這些帶有歧視的人類數據訓練機器，機器得到的結果也會是歧視性的。而若將這些內嵌歧視的算法用作司法工具，那麼就會形成一個歧視性的反饋循環，讓歧視在社會中更為鞏固。

“基於面部特徵的深度學習絕不該應用為‘加速’司法公正的工具，如果真的這麼做的話，反而會讓不公正長存於世。”文章這樣結尾道。

5月14日，武筱林撰文向澎湃新聞進行了獨家回應。他指責這種隔空點名的方式並非“我們所熟悉的學術交流”，而是政治鬥爭上扣帽子的手法。武筱林提到，他們在論文中明確聲明“沒有興趣也不夠格去解讀實驗結果”，卻“被”解讀了。三位美國作者無視聲明，將論文原話斷章取義，湊成主觀臆斷強加於他們，扣上了一頂大帽子。

圖b標註了存在差異性的3個特徵點。表4為罪犯組和非罪犯組在3個特徵點上的平均值和偏離值。

在文章中，武筱林還回應了許多網友提出的“把教授自己的臉放進去試試”的問題，澄清了一種常見的“基礎概率謬誤”，再次強調他們的研究無意也無法用於實踐。

此外，武筱林也對外界的幾點技術質疑作出回應。他總結道，“我們感謝所有針對論文的問題和討論，但堅決反對歪曲我們的初衷”，“這既不專業，也很傲慢。”

“僅僅在文章中用到（面相學）這個詞，就足夠貼一個科學種族主義的標籤了嗎？”這是武筱林的疑問。

人工智能倫理討論無需扣帽子和歪曲事實

（原文為英文，由澎湃新聞記者翻譯）

2016年11月，我和我的博士生張熙在arXiv上貼出了一篇題為 “Automated Inference on Criminality using Face Images”的論文。該論文在各國學術界，尤其是互聯網上引起了廣泛的關注和爭議。近日，Arcas等三人在Medium網站上發表了《相面術的新外衣》（Physiognomy’s New Clothes）一文。我們贊同三位作者的觀點，即AI研究要有益於社會，但我們也發現，他們對於我們的工作，尤其是我們的研究動機和目標存在諸多誤讀。

扣帽子（name calling）

該文章（即《相面術的新外衣》，下同）的作者暗示我們有惡意的種族主義動機。他們認為這種暗示很明顯，導致我們立馬在網絡上，尤其是中國網民那裡成了千夫所指。我們論文裡從未宣稱要把我們的研究方法用作司法工具，我們對相關性的討論也從未延伸到因果關係。任何以客觀心態讀過我們論文的人，都會明白我們只是想知道，機器學習是否有潛力像人類一樣，對人臉形成社會性的看法。要知道，這種同時基於觀察者和被觀察者的看法是很複雜、很敏銳的。

我們的研究是在挑戰機器學習的上限，並將人臉自動識別從生物學維度（比如種族、性別、年齡、表情等）拓展到社會心理學維度。我們只是好奇，能否教會機器複製人類對陌生人的第一印象（個性、風格、器宇等），通過圖靈測試。正如我們在論文中所述，直覺上，我們認為對於面部的犯罪性印象是個比較容易測試的選擇，事後證明，這是個不幸的選擇。

“為了驗證我們的假設，即一個人面部的物理特徵與其內在特質、社會行為間存在相關性，運用現代自動分類器去區別罪犯和非罪犯，測試其準確率是非常有說服力的。如果面部特徵和社會屬性真的相關，這兩類人群應該是最容易區分的。這是因為，犯罪需要人格中存在很多不正常（離群值）。如果分類器的區別率很低，那麼我們就能有把握地否定對面部進行社會性推定的做法。

令人震驚的是，來自谷歌的作者們將上述段落斷章取義，湊成了下述臆斷強加於我們。

“那些上唇更彎曲，兩眼間距更窄的人在社會秩序上更低級，傾向於（用武和張的原話說）‘人格中存在很多不正常（離群值）’，最終導致在法律上更可能被判定犯罪。”

我們認同“犯罪性”（criminality）這個詞有點尖銳，我們應該打上引號的。在使用這個詞的字面意思，把它作為機器學習的參考標準（“ground truth”）的同時，我們沒有警告讀者，輸入的數據存在噪點。這是我們的嚴重疏忽。然而，在論文中我們始終保持了一種嚴肅的中立性；在引言部分，我們聲明道：

“在本文中，我們無意也不夠格去討論社會偏見問題。我們只是好奇，全自動的犯罪性推定能有多高的準確率。一開始，我們的直覺是機器學習和計算機視覺會推翻面相學，但結果是相反的。”

我們清楚地聲明了無意也不夠格去解讀，但卻被來自谷歌的作者們過度解讀了。這不是我們習慣的學術交流方式。此外，我們還後悔不該選擇使用“physiognomy”這個詞。它最接近的中文翻譯是“面相學”。我們對這個詞在英語國家裡固有的負面涵義不夠敏感。但是，僅僅在文章中用到這個詞就足夠貼一個科學種族主義的標籤了嗎？

“基礎概率謬誤”（base rate fallacy）

來自谷歌的作者們是“為廣大的受眾，不只是為研究者”寫這篇文章的，但他們隨意地忽視了一些非技術流的博客和媒體報道里出現的“基礎概率謬誤”跡象。

人腦往往會被一個特定事件的高條件概率鎖住，而忘記了該事件在大環境裡發生的極低概率。我們文章中最強的基於深度學習的面相分類器有89%的識別率（注意：這是基於我們目前的訓練數據，還有待用更大的數據核實），很多人就認為，這麼高，這還不一試一個準！（國外就有文章報道我們時就驚呼“correct 9 out 10 times”）。有人在網上調侃 “教授，把你的臉放進去試試”。好吧，這倒是蠻好玩的。假設我的臉被測陽性（被認定為罪犯），我有多高概率有犯罪傾向呢？計算這個概率需要用貝葉斯定理：

P(罪|+) = P(+|罪)*P(罪) / [ P(+|罪)*P(罪) + P(+|非)*(1-P(罪)) ]

上式中P(+|罪)=0.89 是罪犯的臉被我們深度學習測試方法判陽性的概率，P(罪)=0.003是中國的犯罪率，P(+|非)=0.07是我們方法假陽性（把一個非罪犯判定為罪犯）的概率。將這些數值代入貝葉斯公式，結果是武筱林有3.68%的概率犯罪。我想，這一路從89%到3.68%走下來，原來不少罵我們的人就釋懷了吧。那些叫着要紀委用我們的方法的網友也該歇歇了。不過，我這裡再次鄭重聲明，我們堅決反對在執法司法中使用我們的方法，原因不僅僅是上面演算的結果。

基礎概率謬誤是媒體慣用的伎倆，誇張地描述某項大眾所不熟悉的新技術或新研究，藉此操縱大眾，逐步灌輸對人工智能研究的不理性恐懼。

無用輸入（Garbage in）？

儘管我們對來自谷歌的作者們的精英主義論調感到不適，但我們認同他們提出的進步性的社會價值。他們實在沒必要像編年史一樣列出歷史上那些臭名昭著的種族主義者，接着把我們列在後面。但起碼在理論上，獨立於主流社會觀念的研究客觀性是存在的。

我們都很了解“無用輸入”和“無用輸出”。然而，來自谷歌的作者們似乎在說，因為輸入數據中人類的偏見是無法避免的，所以機器學習工具無法用於社會計算。就像大多數技術一樣，機器學習是中性的。如果像他們說的，機器學習可以用來鞏固社會計算問題中的人類偏見，但機器學習也可以用於發現並矯正人類偏見。他們擔心反饋循環的問題，然而，反饋本身就既可以是負向的，也可以是正向的。就算“犯罪性”是個十分複雜的問題，受過良好訓練的人類專家可以努力確保訓練數據的客觀性，也就是說，能使用獨立於嫌犯外貌的正確判決。如果數據標籤是不帶人類偏見的，那機器學習在客觀性上無疑是優於人類判斷的。

即使標籤中存在噪點，無論是隨機的還是系統性的，也有科學辦法能洗滌和恢復/提高結果的準確度。我們不能畏於民粹主義就在科學知識上讓步。

過擬合（overfitting）的風險

批評者很快就指出了我們實驗中所用的樣本集較小，存在數據過擬合的風險。我們痛苦地意識到這個缺點，但鑑於某些顯然的原因，我們難以拿到更多的中國男性罪犯身份證照片（這篇批評文章可能讓我們豐富數據集的希望化為泡影）。然而，在如下所示的論文3.3章節，我們已盡全力驗證我們的發現，這又被他們完全忽視了。

“鑑於社會上對這個話題的敏感性和反響度，以及對面相術的質疑，我們在公布結果前異常謹慎。我們故意跟自己唱反調，設計實施了以下實驗，以挑戰分類器的正確性……”

我們把訓練集中的照片以五五開的概率隨機標籤為罪犯或非罪犯，看看四個分類器能否以超過50%的概率區別這兩組照片。結果是四個分類器都失敗了。一些類似的、更具挑戰性的測試結果也是如此（詳情參見論文）。這些實證結果，說明論文中分類器出色的表現並非由數據過擬合所致。否則，在樣本集大小和類型一樣的情況下，分類器也應能夠區別兩組隨機標籤的數據。

“白領子”（ white collar）

批評文章也質疑道，罪犯組的身份證照片大多是不穿襯衫的，而非罪犯組的身份證照片大多穿了白領子的襯衫。在這點上，我們忘了說明，在實驗中，我們訓練和測試使用的圖片全部是只摳出了臉部的。

但不管怎樣，這個“白領子”線索還牽出了另一個重要的細節，在這裡我們需要向讀者們道歉。這個細節是，我們無法控制那些實驗對象的社會經濟地位。我們不是不想控制，但基於保密協議，我們不能拿到元數據。考慮到這個微小差別，我們預期分類器的準確率在控制社會經濟地位這一項後會下降。這是基於社會歧視的一個推論。事實上，也因此，我們認為這項研究結果對社會科學來說是有意義的。

在論文中，我們還採取了一切措施，避免機器學習方法，特別是CNN，檢測到圖像間一些淺表的差距，比如壓縮噪點或照相機的不同（參見論文3.3章節）。

總之，我們感謝所有針對論文的問題和討論，但堅決反對歪曲我們的初衷。比如James Weidmann說“武和張論文的意圖正是如此”，這既不專業，也很傲慢。

（澎湃新聞記者虞涵棋楊漾）

0%(0)

	實用資訊

回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐：海航獲五星
海外華人福利！在線看陳建斌《三叉戟》熱血歸回豪情築夢 高清免費看無地區限制

一周點擊熱帖

更多>>

一周回復熱帖

歷史上的今天：回復熱帖

2016:	中國值得同情的人很多，孫志剛，夏俊峰
2016:	列位大老，你門和同學都建立QQ或微信群
2015:	阿潤在這裡整天無病呻吟,最是讓人討厭,
2015:	我所遇到的的三大宗教信徒
2014:	紫云：我是湖南人
2014:	說實話，我對中國左派充滿了鄙視。另外
2013:	一點感想
2013:	樓下隔岸觀火的帖子非常對路，網上瞎咋
2012:	看看俺這個比較生硬的拼湊
2012:	春色滿園--溫哥華伊麗莎白女皇公園