?

圖片來源:Mati Mango from Pexels
?
1964 年,數(shù)學家、計算機科學家 Woodrow Bledsoe 首次嘗試將嫌疑犯的面部與計算機中存儲的面部照片相匹配的任務:他測量出打印出的照片中不同面部特征之間的距離,并將其輸入計算機程序。這個步驟的完成,開啟了接下里數(shù)十年里人類教會機器識別人臉的嘗試。
?
?
43 年來 100 多個數(shù)據(jù)集、1.45 億圖像的調(diào)查
?
無論是在學校、便利店、公共廣場、音樂會、公寓大樓、機場、社區(qū)公園,還是在個人設(shè)備上,面部處理技術(shù)(FPT, Facial Processing Technology)正不斷地以無數(shù)種難以解釋的方式,潛移默化地滲透到我們的日常生活中。
?
在早些時候,美國國家標準協(xié)會(NIST, the National Institute of Standards)曾自豪地宣布,從 2014 年到 2018 年,F(xiàn)PT 的性能提高了 20 倍,失敗率僅為 0.2%。
?
然而,現(xiàn)實世界中所呈現(xiàn)出的一系列失敗的案例,殘酷地打破了面部識別(face identification)作為學術(shù)界神話的傳言。
?
2016 年至 2018 年期間,在倫敦進行的 8 次 FPT 部署的試驗中導致了對犯罪嫌疑人的錯誤識別率高達 96%;而 2019 年的一份報告中發(fā)現(xiàn),在倫敦警察廳(London’s Metropolitan)所使用的面部識別工具所標記的嫌疑人中,錯誤識別率達到了 81%。
?
類似的,紐約市大都會運輸局(MTA, Metropolitan Transportation Authority)在面部識別的錯誤率達到 100% 后,果斷停止試點項目。
?
且這些失敗在人口統(tǒng)計學的子群體中并非平均分布。以膚色為例,面部識別在識別膚色偏深的黑人或棕色人種時的準確率較低。據(jù) 2018 年的一項研究顯示,相比于膚色較淺的男性群組,商業(yè)面部識別 API 在膚色較深的女性群組上的表現(xiàn)要低 30%。
?
美國國家標準與技術(shù)研究院(NIST, National Institute of Standards and Technology)和其他學者的研究,已經(jīng)充分證實了這些表現(xiàn)差異。同樣,在坐實亞馬遜的 Rekognition 圖像識別系統(tǒng)錯誤地匹配了 28 名國會議員的一年后,該技術(shù)又錯誤地將 27 名運動員與犯罪嫌疑人的臉部照片相匹配,由此便引起了公眾對該技術(shù)在部署中存在局限性的特別關(guān)注。
?
技術(shù)局限性以外,更加棘手的是隱私問題。
?
在美國,許多州都通過了專門針對 FPT 系統(tǒng)開發(fā)和運行中固有的侵犯隱私問題的法律,更多的州還提出了立法提案。聯(lián)邦方面,2019 年的《商業(yè)面部識別隱私法》(the Commercial Facial Recognition Privacy Act of 2019)中明令禁止 “在未獲得終端用戶的肯定性同意的情況下,某些實體使用面部識別技術(shù)來識別或跟蹤終端用戶”。
?
盡管公眾越來越深刻地意識到,這些系統(tǒng)一旦用之于眾,將會引發(fā)一系列的現(xiàn)實難題,但學術(shù)研究仍在持續(xù)給出 “面部識別系統(tǒng)在基準數(shù)據(jù)集上性能近乎完美” 的報告。
?
為了更好地理解在當前有限的評估規(guī)范下,這些系統(tǒng)的感知功能與現(xiàn)實部署時整體的性能表現(xiàn)之間的不協(xié)調(diào),AAAI 2021 文章 About Face: A Survey of Facial Recognition Evaluation 中,來自 Mozilla 的 Inioluwa Deborah Raji 和紐約大學 AI Now Institute 的 Genevieve Fried,調(diào)查了自 1976 年至今的數(shù)字面部處理技術(shù)(digital facial processing technology)和數(shù)據(jù)集發(fā)展。
?
他們追蹤了 1976 年~2019 年年間、100 多個用于訓練面部識別系統(tǒng)的數(shù)據(jù)集情況,涵蓋來自 1700 萬個調(diào)查對象的 1.45 億張圖像。
?
這也是目前所知的此類調(diào)查中規(guī)模最大、最新的一次。
?
?
面部識別發(fā)展的 4 個歷史階段
?
這些數(shù)據(jù)集的形成本身就是一個動態(tài)的過程,由政治動機、技術(shù)能力和當前規(guī)范的變化共同驅(qū)動。
?
團隊通過分析評估任務、訓練數(shù)據(jù)和度量標準的演變,更清晰地了解評估的內(nèi)容,從而在部署環(huán)境中真正捕獲這些系統(tǒng)的可靠表示,以便在現(xiàn)實世界中建立起對這項技術(shù)功能更客觀、更深入的理解。
?
首先來看下,這項研究中提到的面部處理技術(shù)究竟是指什么。
?
在此,面部處理技術(shù) FPT 將被視為一個廣義的術(shù)語,涵蓋任何涉及人臉圖像的識別和表征的任務,包括人臉檢測(face detection)—— 在圖像的邊界框中定位人臉的任務;人臉驗證(face verification)—— 對查詢圖像和給定圖像進行一對一的確認;面部識別(face identification)—— 對查詢圖像和給定圖像庫進行一對多的最相似結(jié)果匹配;以及面部分析(facial analysis)—— 一種用于確定面部特征的分類任務,諸如年齡、性別或姿勢等身體或人口統(tǒng)計學特征,以及更多的情景特征,如面部表情。
?
目前,主流的商業(yè)面部識別產(chǎn)品仍然主要基于 2D 靜態(tài)圖像的預測。
?
因此研究將調(diào)查范圍限制在現(xiàn)在線可用的 2D 靜態(tài)圖像攝影面部識別基準,即不討論由紅外或其他傳感器輸出圖、草圖或繪圖數(shù)據(jù)集、基于視頻的數(shù)據(jù)集、3-D 圖像數(shù)據(jù)集以及諸如體態(tài)識別這樣的非視覺人臉圖像集。
?
在本研究中,團隊將審核(audit)或評估(evaluation)看作是一系列用于確定特定技術(shù)適用性的過程,以實現(xiàn)其在指定部署中的預期使用。顯然,該方法獨立于此定義,因此評價方法會包含定量和定性兩個方面。
?
而在時間范疇上,由面部識別發(fā)展的三個關(guān)鍵性轉(zhuǎn)折點所劃分,研究將 FBT 發(fā)展主要分為四個時期。
?
三個關(guān)鍵性轉(zhuǎn)折點分別是:
?
(1)于 1996 年創(chuàng)建面部識別技術(shù)(FERET)數(shù)據(jù)庫,它是首個用于學術(shù)和商業(yè)研究的大規(guī)模人臉數(shù)據(jù)集;
(2)于 2007 年創(chuàng)建 LFW (Labeled Faces in the Wild)數(shù)據(jù)集,它是首個源于 Web 的人臉數(shù)據(jù)集,主要用于研究非受限情況下的面部識別問題;
(3)于 2014 年開發(fā) DeepFace 數(shù)據(jù)集,它是第一個在人臉驗證任務上擊敗人類表現(xiàn)的面部識別模型,并使用目前主流的深度學習技術(shù)進行訓練。
?
面部識別發(fā)展的四個階段及其具體任務依次是:
?
第一階段:早期研究階段(1964-1995)
?
面部識別算不上很新鮮的概念,這個任務借由計算機來實現(xiàn)可以追溯到 20 世紀 60 年代。
?
1964 年,Woodrow Bledsoe 首次嘗試以計算形式進行面部識別任務。在某情報機構(gòu)的資助下,他通過計算機編程將嫌疑人的身份和面部照片書中的身份聯(lián)系起來。Bledsoe 最初的方法是用計算出的面部特征之間的距離矢量并對每個人進行編碼,這種方法雖然很流行,但是計算成本大、效率低。這在當時的技術(shù)條件下,Bledsoe 每小時只能處理大約 40 張圖片。
?
后來,一種名為特征臉(eigenfaces)的新方法,可以實現(xiàn)在低維空間中表示人臉特征的像素強度,成為了一種有吸引力的替代方法。然而,在當時通過獲取足量數(shù)據(jù)來嘗試這種新方法,仍十分具有挑戰(zhàn)性,因為研究人員將不得不招募、雇傭模特和攝影師,保證拍攝場景設(shè)置上的一致性,并手動標記諸如面部關(guān)鍵特征(facial landmarks)的數(shù)據(jù)。
?
第二階段:“新生物識別” 的商業(yè)可行性階段(1996-2006)
?
到 1996 年,政府官員已經(jīng)承認并接受了這樣一個事實:人臉是一種非侵入性的生物特征,可以用于跟蹤和識別個人,而不需要他們的主動參與。因此,美國國防部和 NIST 提供了 650 萬美元的資金,創(chuàng)建了 FERET 數(shù)據(jù)集,為研究人員提供在該領(lǐng)域取得進展所需的數(shù)據(jù)。
?
在 1993 年 8 月至 1996 年 7 月期間,基準測試從 856 個人的 2413 張靜態(tài)人臉圖像增長到包含 1199 個人的 14,126 張人臉圖像。到了 2000 年,鑒于 FERET 數(shù)據(jù)庫成功激發(fā)了面部識別領(lǐng)域的研究興趣,特別是該技術(shù)開始邁出商業(yè)化步伐,并推動了 NIST 發(fā)布面部識別算法測試(FVRT, the Facial Recognition Vendor Test),這項基準旨在評估新興的商業(yè)系統(tǒng)。
?
隨后,更大、更豐富的數(shù)據(jù)集層出不窮,諸如支持向量機(SVM, Support Vector Machines)、卷積神經(jīng)網(wǎng)絡(luò)(CNNs, Convolutional Neural Networks)和隱馬爾可夫模型(HMMs, Hidden Markov Models)之類的方法,讓面部識別任務取得了一些令人鼓舞的成果。但是,早期方法在實際的應用中也存在某些弊端,無法在各種環(huán)境中很好兼容,而且算法的準確率和算力仍需要提升。
?
第三階段:不受限制的主流開發(fā)階段(2007-2013)
?
LFW 數(shù)據(jù)集的開發(fā)滿足了研究人員獲取更自然定位和更多樣化數(shù)據(jù)的愿望。該數(shù)據(jù)集包含 1680 個人的超過 13000 張圖片,其中涵蓋了姿勢(poses)、照明條件(illumination conditions)和表情(expressions)的無限組合。
?
由此,LFW 激發(fā)了一波用于面部識別模型訓練和基準測試的網(wǎng)絡(luò)人臉數(shù)據(jù)集的熱潮 —— 包括許多未經(jīng)在線平臺同意而獲取圖像的數(shù)據(jù)集,比如谷歌圖像搜索(Google Image search)、雅虎資訊(Yahoo News)。
?
隨著人們對非結(jié)構(gòu)化、不受約束的 “野生” 數(shù)據(jù)需求的增長,像 ChokePoint 和 SCface 這樣的基準數(shù)據(jù)也大量涌現(xiàn),不僅數(shù)據(jù)集越來越擬合真實世界的情況,F(xiàn)VRT 也得到了廣泛的發(fā)展,從 2000 年最初實施的 1462 人的 13872 張圖像增長到 2013 年 1440 萬人的 3020 萬張靜態(tài)照片。但是,在不受限制的條件下進行面部識別的研究,仍是一項技術(shù)挑戰(zhàn)。
?
第四階段:深度學習的突破階段(2014 至今)
?
2012 年 Alexnet 的突破,以及隨后在 2014 年引入 DeepFace 模型推動神經(jīng)網(wǎng)絡(luò)成為了面部識別發(fā)展的主流方法。
?
由 Facebook 公司開發(fā)的 DeepFace,是第一個通過深度學習訓練的面部識別模型,也是面部識別模型在任務上逼近人類性能的第一個實例。據(jù)稱,這是 “迄今為止最大的面部數(shù)據(jù)集,一個包含超過 4000 個身份的 400 萬張面部圖像的數(shù)據(jù)集”。
?
深度學習技術(shù)對面部識別的影響是巨大的;DeepFace 模型在 LFW 測試集上取得了 97.35% 的準確率,相較于之前的前沿技術(shù)方法,在誤差率上降低了 27%。為了響應這一技術(shù)的進步,隨后構(gòu)建的人臉數(shù)據(jù)集的規(guī)模顯著增長,目的是適應訓練深度學習模型日益增長的數(shù)據(jù)需求。
?
這一快速進展也引發(fā)了巨大的商業(yè)利益。
?
最早的面部識別算法主要面向安全應用,但在商業(yè)化上,面部識別產(chǎn)產(chǎn)品已經(jīng)涵蓋索引和搜索數(shù)字圖像存儲庫、定制廣告精確投放、用戶參與監(jiān)控、客戶人口統(tǒng)計分析等。特別是 2014 年 DeepFace 模型在面部識別方面取得突破之后,該技術(shù)率先引領(lǐng)了商業(yè)化浪潮。
?
這一切都建立在廣泛發(fā)展的面部識別數(shù)據(jù)集的基礎(chǔ)之上。
?
?
面部識別數(shù)據(jù)集 “之最”
?
研究人員調(diào)查的 1976 年至 2019 年間創(chuàng)建的 133 個數(shù)據(jù)集,總共有了 145,143,610 張圖像,包含 17,733,157 張面孔。
?
其中,最大的數(shù)據(jù)集是 2018 年 Cele500k 數(shù)據(jù)集,包含 50,000,000 張圖像;來自 NIST 的 FRVT 覆蓋了最多的人群,包括 14,400,000 張面孔;而最小的數(shù)據(jù)集是 1988 年 JACFEE(日本人和白種人面部情緒圖像)數(shù)據(jù)集,包含 4 個人的 56 張圖像。
?
表 1
?
表 2
?
?
然后,團隊對這些當前可訪問的面部數(shù)據(jù)集進行了時間順序分析。表 1 給出了面部識別發(fā)展的每個階段的定量總結(jié),而表 2 展示了每個時代最具影響力的面部數(shù)據(jù)集。
?
究竟哪些資助者贊助了這些數(shù)據(jù)集的開發(fā),同樣意義重大。尤其是對于政府數(shù)據(jù)集而言,所開發(fā)技術(shù)往往目標明確。例如,NIST FRVT 數(shù)據(jù)集是由美國國土安全部(the Department of Homeland Security)資助的,包含的數(shù)據(jù)來自 “美國國務院墨西哥非移民簽證檔案 "。因此,該技術(shù)的優(yōu)先級和主要應用背景仍然是在執(zhí)法和安全背景下的安全性、訪問控制、可疑識別和視頻監(jiān)控。
?
從歷史上可以看出,政府從一開始就在推動和支持面部識別,目的是實現(xiàn)刑事偵查和監(jiān)視。
?
之后,出現(xiàn)了更多樣化的應用程序,如將其集成到移動設(shè)備、機器人和智能家庭設(shè)施用戶界面,以監(jiān)測用戶參與或社會目標。
?
隨著時間的推移,面部識別模型又出現(xiàn)了新的分化:不再作為完整的軟件包進行發(fā)布,取而代之的是作為應用程序接口(APIs, Application Program Interfaces)進行部署,提供預先訓練的模型即服務(model-as-a-service),以便集成到任何開發(fā)人員應用程序中。
?
這意味著,任何試圖將模型應用到特定場合的開發(fā)人員,現(xiàn)在都可以訪問面部識別模型。面部識別模型被廣泛地部署并嵌入到未知和不可預測的環(huán)境中所使用,已然成為常態(tài)。
?
面部分析很可能是模型開發(fā)目標最模糊的一類任務,通常涉及 “不可信的面相和顱相學偽科學”(discredited pseudosciences of physiognomy and phrenology),即通過評估對象的外部特征來錯誤地推斷對象的內(nèi)心狀態(tài)。這些偽科學任務在系統(tǒng)評估中很少受到質(zhì)疑,包括預測 “性取向”(sexual orientation)、“吸引力”(attractiveness)、“可雇傭性”(hireability)、“犯罪性”(criminality),甚至是更多被接受但存在爭議的屬性,如情感、性別和種族等。且在系統(tǒng)測試期間,某些任務或用例可能造成傷害的可能性通常不會被明確地考慮或反映出來。
?
自 2005 年數(shù)據(jù)標注眾籌平臺 Amazon Mechanical Turk(MTurk)推出以來,研究人員開始大量使用該服務,試圖清理和理解其數(shù)據(jù),同時使用這些數(shù)據(jù)集完成其他的任務。
?
然而,圖片的某些數(shù)據(jù)和元標簽是有爭議的。例如,CelebA 數(shù)據(jù)集上標簽包含一些有問題的、潛在的侮辱性標簽,如 “胖”、“雙下巴”,或一些不恰當?shù)姆N族特征,如描述亞洲人的 “尖鼻子”、“窄眼睛”,以及針對于黑人受試者的 “大鼻子” 和 “厚嘴唇”。此外,還涉及一些奇怪的說法和客觀上無法統(tǒng)一定義的標簽。
?
在這背后,人臉數(shù)據(jù)基準實踐,是根據(jù)在驅(qū)動模型開發(fā)方面最有影響力的利益相關(guān)者的需求所塑造的。
?
盡管面部數(shù)據(jù)是生物特征信息,就像指紋一樣獨特且可識別,它也可以以多種形式隨意獲取,因此某些被動地收集方式,可能導致嚴重的隱私侵犯問題。
?
DeepFace 在 2014 年發(fā)布后,深度學習有效性促使人們越來越相信,需要更大規(guī)模的數(shù)據(jù)集來滿足此類方法的數(shù)據(jù)需求。由此,數(shù)據(jù)集從數(shù)以萬計的圖像,發(fā)展到像 MegaMace 和 VGG-Face2 這樣以百萬計的圖像。
?
當模型開發(fā)的數(shù)據(jù)需求較低時,獲取數(shù)據(jù)源的通常做法是使用攝影數(shù)據(jù)源 —— 設(shè)置照片拍攝,以捕捉控制姿態(tài)、光照和表情的面部數(shù)據(jù)。
?
用這種方式產(chǎn)生高質(zhì)量的數(shù)據(jù)集是非常昂貴的。而且需要注意的是,對于這樣的設(shè)置,相機設(shè)備規(guī)格之類的細節(jié),將對圖像以及整個數(shù)據(jù)集的質(zhì)量至關(guān)重要。
?
當然,也存在替代方案,有時數(shù)據(jù)集也可能是其他圖像數(shù)據(jù)集的集合,這些數(shù)據(jù)集可能出于不同的目的而構(gòu)建,或者只是從自愿的參與者那眾包而來,這些參與者在被說服或獲得報酬后捐贈了自己的面部數(shù)據(jù)。
?
后來,學術(shù)界和業(yè)界傾向于通過網(wǎng)絡(luò)搜索 “不受約束” 面孔的靜態(tài)圖像,或者從在線視頻中獲取幀來得到更多信息。
?
也就是說,在深度學習的爆炸性數(shù)據(jù)需求的驅(qū)動下,研究人員逐漸放棄了征求人們同意的要求。越來越多人的個人照片在他們不知情的情況下被整合到監(jiān)視系統(tǒng)中。
?
論文作者之一 Raji 稱,在早期,人們記錄和驗證面部數(shù)據(jù)時非常謹慎。
?
“現(xiàn)在我們不在乎了。她說:“所有這些都被拋棄了。從前只是無法追蹤一百萬張臉,但在某一歷史時間點之后,你甚至無法假裝自己擁有控制權(quán)。”
?
?
失控的不止個人隱私
?
不再審慎地收集面部數(shù)據(jù),也導致了更混亂的數(shù)據(jù)集的出現(xiàn):它們可能會無意間包含未成年人的照片,使用種族主義和性別歧視的標簽,或者質(zhì)量和光線不一致。這也是為什么面部識別系統(tǒng)失敗應用案例數(shù)量持續(xù)增加的原因(推薦閱讀:他或許是第一位因 AI 錯判被捕的無辜者)。
?
與之相關(guān)的更宏觀的一個問題是數(shù)據(jù)集報告的標準化程度欠缺。
?
許多數(shù)據(jù)集缺少關(guān)于圖像收集的來源和方法的信息,或者未能包括宏觀(如人口統(tǒng)計)和微觀(如圖像特定屬性或元數(shù)據(jù)創(chuàng)建)級別的信息,從而產(chǎn)生了不完整的數(shù)據(jù)集特征圖像。
?
除此之外,數(shù)據(jù)集可能在學術(shù)論文或項目網(wǎng)站上進行描述,然而格式未達成統(tǒng)一,甚至在不同的傳播媒介和參考文獻之間也存在著不一致。簡單舉例來說,在一些情況下,網(wǎng)站上報道的圖像數(shù)量可能與發(fā)表的論文中的圖像數(shù)量不同。
?
不過,有趣的是,NIST 做了一些全面的報告,這也作為正在進行的 FRVT 挑戰(zhàn)系列的一部分。評估報告詳細記錄了基準數(shù)據(jù)的構(gòu)造,包含來源和收集方法等。
?
他們在 2000 年的評估報告中承認了這樣做的重要性:“圖像收集和存檔是任何評估過程中最重要的兩個方面。但不幸的是,它們通常在評價的計劃階段沒有得到足夠的重視,并且在評價報告中也鮮有提及。”
?
為了確??煽啃?,無論是在道德期望和標準方面,還是在數(shù)據(jù)本身方面,必須保證所使用基準具有一致性。隨著面部識別任務從驗證和識別發(fā)展到面部分析,潛在的技術(shù)問題也從圖像相似性搜索任務發(fā)展到分類任務。當考慮到人口統(tǒng)計類別的性別限制時,將測試示例劃分為不同類別會變得極其具有復雜性和挑戰(zhàn)性。
?
數(shù)據(jù)集評估是一個至關(guān)重要的任務,在此關(guān)鍵點上,應該為面部識別系統(tǒng)提供透明度,甚至問責制,并審視給定數(shù)據(jù)集的道德規(guī)范,以推動更負責的機器學習的發(fā)展。面部識別技術(shù)帶來了復雜的道德和技術(shù)挑戰(zhàn),這些挑戰(zhàn)將愈發(fā)難以回避。
?
正如論文作者之一 Raji 所表示的,希望這篇論文能夠激發(fā)研究人員思考如何更好地平衡深度學習帶來的性能提升與對道德共識的破壞。
?
“為了進行深度學習而放棄所有這些道德上的實踐,真的值得嗎?”?
關(guān)注【深圳科普】微信公眾號,在對話框:
回復【最新活動】,了解近期科普活動
回復【科普行】,了解最新深圳科普行活動
回復【研學營】,了解最新科普研學營
回復【科普課堂】,了解最新科普課堂
回復【科普書籍】,了解最新科普書籍
回復【團體定制】,了解最新團體定制活動
回復【科普基地】,了解深圳科普基地詳情
回復【觀鳥知識】,學習觀鳥相關(guān)科普知識
回復【博物學院】,了解更多博物學院活動詳情
![]()

