【科技．未來】辨識人臉表情　等於讀懂「情感」？

當人臉辨識在全球各地相繼推出，令人擔心環形監獄時代來臨，更進一步的反烏托邦或許在等着我們。一些科技公司聲稱可以人工智能（AI）分析我們的表情，解讀出情感狀態，有助各行各業了解消費者喜好之外，更可被執法機關用來判斷你是否對公眾安全構成威脅。

問題是，這些技術到底有多大成效？辨識到表情又是否真的等於辨識到情感？美國心理協會（APS）委託五位科學家探討這個問題。他們花了兩年鑽研了逾1,000份相關研究，於今年7月中發表分析報告，認為面部表情與情感辨識的關係並非Ekman所主張那麼簡單、直接和普同。「數據顯示，人們在憤怒時會皺眉的情況，平均不足30%，所以，不是皺眉就代表了憤怒，它只是憤怒的眾多表徵之一。」文獻研究者之一、美國東北大學心理學教授Lisa Feldman Barrett對科技媒體《The Verge》說，「是否真的想以這種基礎來判斷出結果？你想不想在法庭、工作面試、醫療診斷或機場等場合，使用準確率只有30%的演算法？」

Barrett還是研究生時，首次接觸到Paul Ekman提出的那個古典情感理論。美國加州大學柏克萊分校（UC Berkeley）心理學家Paul Ekman，他在上世紀六十年代主張，愉快、傷心、厭惡、恐懼、憤怒和意外，這六種情感不論文化背景為何，都會以普同的方式展現，並可透過分析面部肌肉動作來偵測。在回顧文獻時，她開始擔心背後的研究方法論有缺陷，尤其覺得Ekman向測試者提供預先選擇好的標籤來與相片配對，這做法已無意中引導了某種答案。於是她和同事挑戰這個假說，重做Ekman的測試但不提供標籤，讓測試者自由形容他們所看到相中人的情緒。結果，特定表情和情緒之間的關聯大幅弱化了。

有學者及業者皆認同，即使同樣的面部表情類型，出自不同文化背景的人也有不同意義，無法可靠地反映真實情感。（示意圖；新華社）

Barrett認為，想要跨越所有文化和脈絡，把表情直接套為情感，這種想法根本不合理。一個人固然可以因為憤怒而皺眉，但另一人也可以笑裏藏刀。「對上一次有人因為憤怒時皺眉而贏得奧斯卡金像獎是何時？根本沒有人會認為這就是好演技。」

所以，當出售情感分析工具的科技公司如微軟，說AI的進展讓它的軟件「辨識八種核心情感狀態，基於反映這些情緒的普同面部表情」，正是Barrett所反對的。她在著作《How Emotions Are Made: the Secret Life of the Brain》中主張，大腦中並不存在受外在刺激而引起的普同情感，而每種情感經驗都由更多基礎部份構成：「它們是你身體的不同生理特質的結合，一個靈活的大腦可把它與身處的發展環境連接，而文化和成長經歷就提供了那環境。」例如，Affectiva行政總裁Rana el Kaliouby發現，巴西人會用寬闊而持久的笑容來表達愉悅，而日本就只有禮貌而非喜悅的笑容。

事實上，美國交通安全局（TSA）在2007年引入了一個Ekman擔任顧問的項目，訓練官員透過面部表情和行為辨識潛在恐怖分子。美國政府責任署（GAO）在2013年發表對該計劃的評估，發現TSA根本沒有為這項目建立足夠科學基礎，而項目也沒有引致任何人被捕。美國公民自由聯盟（ACLU）2017年的研究更指該項目涉及種族貌相（racial profiling）。

美國交通安全局曾推出計劃，訓練員工以「微表情」辨識罪犯，卻毫無成效，更被政府審計部門批評欠缺科學基礎。（資料圖片；VCG）

俄羅斯公司Neurodata Lab曾做過一個簡短實驗，並顯示了情境脈絡對於情感辨識的影響。來自29個國家逾1,400名測試者需要看四組照片，每組兩張。每組的第一張照片都只顯示一名有某種面部表情的女性，第二張也有同樣的女性，但會手執不同物件如睫毛刷、書、眼鏡、牙刷或結他，為照片加入環境脈絡。然後測試者需要看每張照片，感覺照片對於他們是否「富情感的」（emotional）。測試者對兩者反應有明顯差別，沒有加入脈絡的照片，大部份測試者都認為是「富情感的」（3.52張）；但加入物件後，很多測試者會改變看法，只剩約四分之一認為是「富情感的」（1.2張）。

英國格拉斯哥大學計算機科學教授Alessandro Vinciarelli解釋：「整體而言，非語言的線索，即面部表情、聲調、姿勢等，比起文字都傾向以更為彈性的方式傳達意思。為什麼非語言溝通是一種強大的方式來傳達微妙的差異，尤其在社交和情感互動上？這正是一大原因。但代價是，互動會有模糊或不確定之處，只可以靠考慮情境脈絡來解決。」

Neurodata Lab的研究發現，人對於照片中人的情感解讀，會深受環境脈絡左右。（Scientific American; Neurodata Lab）

走出情感刻板印象

美國北卡羅萊納大學心理學與神經科學助理教授Kristen Lindquist補充：「絕大部份數據顯示，人們會因為學習過程而在接收面部情感的能力上有所不同。臉上的資訊很曖昧，人們在利用環境脈絡和過往所學來拆解這曖昧時，有不同程度的差異。這解釋了為什麼小孩會隨年長而愈來愈熟練理解他人的面部表情，以及為什麼有些人是社交能手而有些不是。」

紐約大學的AI Now研究所總監Meredith Whittaker警告，這些以Ekman那過時的科學理論為基礎、無視情景脈絡的情感辨識將會帶來實際的社會傷害：「你已經見到招聘公司利用這些技術來測量求職者是否值得聘用，也有一些實驗性質的技術引入到學校來觀察學生有沒有專注上課。當這種資訊可以用來阻止一個人得到工作，或形塑他們在學校會如何被對待和評估，而那分析又不是極之準確的話，將會造成十分重大的傷害。」

過境旅客不會知道iBorderCtrl對他們的評分，若他們未獲批入境也無從得知是否因為該系統評分所致。（Getty Images）

英國牛津大學互聯網研究所的哲學家Brent Mittelstadt也同意。他說，現時在情感辨識應用上，遇到「有問題的案例多過有正面用途的」：「隨着一個應用的相對風險上升，它的準確度和透明度也應該上升。在iBorderCtrl的例子中，問題在於被質疑說謊的人不會被告知他們的測試結果，或關於該系統功能和準確度的資訊。缺乏這些的話，將會非常難挑戰自動系統的決定。」

Barrett認為，科技公司要邁向正確的方向，應收集採用更多數據，訓練他們的系統考慮身體姿態、聲音特徵、環境脈絡等，就如正常人類一般。Kaliouby也同意情感很複雜，因此，Affectiva正不斷豐富他們的數據，除了使用影片而非靜態圖片來訓練演算法之外，他們也嘗試捕捉更多脈絡數據，例如聲音、步態以及人類察覺不到的細微面容變化。

數據分析公司尼爾森（Nielsen）2017年發表的一項測試結果發現，以人臉編碼、生物特徵、腦電圖等神經科學技術辨識情感的準確率，若獨立分開使用的話，分別只有9%、27%和62%；若三者都用的話，則可增加至77%；而配以問卷調查的話，可再增至84%。

Affectiva聲稱，他們相比其他公司只靠面部表情，還會收集結合更多數據如語言分析，可更準確辨識情感。但有學者卻反駁，他們的造法仍然只能辨識出「情感刻板印象」。（Affectiva）

Barrett反指問題不只關乎數據，而是數據如何被標籤。現時Affectiva和其他情感偵測公司用來訓練演算法的標籤過程，只能夠辨識出Barrett所謂的「情感刻板印象」。對此，Kaliouby聲稱他們從87個國家收集了共800萬張面孔數據，並對面部動作引入「文化針對性基準」，試圖減少情感辨識時的文化差異影響。「我們要確保訓練演算法時的數據足夠多元。我們需要白人、亞洲人、有色人種，甚至穿穆斯林頭巾的人。」她也意識到情感辨識可能被誤用：「與大眾就這科技應如何使用而展開對話，這非常關鍵。」

但以行業領先者自詡的Kaliouby也無奈地說：「這些年來，我已嘗試過解決該問題，但從整個行業而言，我們仍未做到。我會形容它就像幼兒，只會理解簡單的狀態，但不會有語言或老練的感知去辨識複雜的情感。」她又補充，很多時客戶對於更完善的做法沒有興趣，反而要求基於從Ekman研究而來的六種情感分析。

或許，人類總有一天能製造出與人類接收情感無異的機器，儘管如此，Kaliouby坦言仍不足以完全解決情感辨識的問題，因為「人類也經常會錯意」。

【科技．未來】辨識人臉表情 等於讀懂「情感」？

走出情感刻板印象

相關文章︰

【科技．未來】辨識人臉表情　等於讀懂「情感」？