【科技.未來】語言AI恐承襲人類偏見 單靠倫理漂白如何釋疑?

撰文:孔祥威
出版:更新:

近年大型語言模型(LLM)已成為科技巨頭之間的研發競賽,爭相以開源神經網絡架構Transformer為基礎,建立更大型的AI語言模型。例如中國互聯網巨頭百度的「文心」、晶片製造商英偉達(Nvidia)的Megatron、微軟的Turing-NLG,以及AI研究組織Open AI去年發表的GPT-3等。這些公司希望在短期內以LLM開啟各種自動化應用,并最终製造出具真正智能的「通用AI」。

承接上文:【科技.未來】語言AI研發戰展開 通用AI指日可待?

「隨機鸚鵡」的危險

然而,目前大型語言模型距離通用AI仍甚遠。正如Google行政總裁Sundar Pichai承認:「語言無限複雜。我們用它來講故事、開玩笑、分享想法……語言的豐富和靈活,令它成為人類最偉大的工具之一,也是電腦科學面臨的一大挑戰。」Google工程師也指出,它們「對世界沒有真正的理解」。或者用去年華盛頓大學語言學教授Emily Bender與前Google倫理AI聯合主管Timnit Gebru等四名作者合著的論文形容,AI語言模型只是「隨機鸚鵡」(stochastic parrots)。這篇論文指出了GPT-3、BERT等大型語言模型(LLM)存在的重要問題。其一是訓練大型語言模型需大量數據,包括從網上收集來的語言,可能混雜帶有性別、種族歧視及仇恨的言論。

有研究指出,AI語言模型可能會承襲人類的偏見,也可能會產生錯誤及極端內容。(Getty Images)

若人類刻意濫用語言AI,會有更加嚴重的後果。例如美國喬治城大學安全及創新科技中心(CSET)研究人員發現,這些AI有時產生錯誤、極端或與前後不連貫的內容,而這種缺點令它們適合用來製造假新聞。研究也發現, GPT-3很容易配合「匿名者Q」(QAnon)的風格,利用「常被QAnon針對的人如(美國前國務卿)希拉里來杜撰陰謀論」,足以左右輿論。測試之一是觀察志願者閱讀GPT-3生成的Twitter帖文後有何反應,內容關於美軍從阿富汗撤軍及美國制裁中國。結果在看過訊息後,表示反對兩項政策的志願者多了一倍。

靠公關「倫理漂白」

面對AI語言模型的這些問題,研發的公司到底有否決心避免或解決?在技術上走得最前的Google,在倫理方面似乎最令AI倫理社群失望。在Gebru發表了那篇揭示AI語言模型存在各種問題的論文後,她去年12月在Twitter宣布遭Google解僱。上月I/O大會前夕,Google AI負責人Jeff Dean在科技媒體CNET的獨家訪問中坦承:「聲譽受到影響是真的。但我們必須走出這件事。」在解僱風波後,Google重組了倫理AI團隊,改由公司的工程副總裁Marian Croak帶領。她上月初在《華爾街日報》舉辦的活動上說,Google在未來幾年會把倫理AI團隊規模擴大一倍至200人。Google也在介紹LaMDA的網誌中重申清楚AI語言模型的潛在偏見、仇恨言論及假消息問題,並強調研發過程「首要考慮責任」。

前Google倫理AI聯合主管Timnit Gebru指出AI有環保及偏見問題的論文後遭Google解僱。雖然Google正欲挽回聲譽,但仍受公司內外質疑是否只是倫理漂白。(Getty Images)

不過,這些舉動似未足以挽回外界信心。例如Bender向科技媒體The Verge說,有關LaMDA的網誌上雖然說Google會查核用於訓練AI的語言數據,但沒有詳細交代具體做法。美國紐約大學AI Now研究所共同創辦人Meredith Whittaker也質疑Google言行不一:「LaMDA在I/O大會上發表,反映了其在Google的戰略意義。團隊要花很多時間準備這次發表,亦即是這項計劃存在之時,Google解僱了Gebru,試圖抹殺她及其那份批評這種技術的研究。」Gebru形容:「這就是所謂『倫理漂白』(ethics washing)。」

Gebru和Mitchell遭解僱一事,令初創公司Huggingface科學總監Thomas Wolf覺得研發社群是時候要自救。該公司展開了名為BigScience的計劃。目標建立一個專門用於學術研究的開源LLM,公開及仔細記錄每個數據點及建模決策,從而更容易分析它們如何影響模型,找出LLM的適當應用。Huggingface本年4月還得到法國政府資助,並吸引了全球逾500名科研人員分工合作。有些在測量模型的碳足迹和超級電腦的生命周期;有些在鑽研以更負責任的方式來收集訓練數據;有些在評估模型在不同語言之間的表現。Wolf寄望:「人人都想訓練LLM,我們無法阻止這股狂潮,但至少希望能把它推向較為有益的方向。」

(節錄)

上文節錄自第270期《香港01》周報(2021年6月21日)《把搜尋變成對話 語言AI恐承襲人類偏見》。如欲閱讀全文請按此試閱周報電子刊,瀏覽更多深度報道。

270期《香港01》周報精選內容:

【封面報道】「尖端科技」劃入國策 如何借勢打造世界新矽谷

中國共產黨的一百年 香港人能視而不見?

神舟十二號載人升空 中國人首次進入自己的太空站

手作之魅:興趣化成生意 產業鏈漸成形

讓玩家「管治世界」 區塊鏈顛覆傳統遊戲模式?

把搜尋變成對話 語言AI恐承襲人類偏見