三個AI安全研究:模型已經同人類目標不一致?|Jack Talk・去片

撰文:葉德豪
出版:更新:

談起AI安全,大家可能會覺得這是一個非常遙遠的問題。其實不然。

本片將跟大家分享三個來自美國AI公司Anthropic有關人工智能大型語言模型(LLM)「目標錯位」(Misalignment)的研究。

「目標錯位」者,即AI模型出現與其人類設計者不一致的目標。最常用來解釋這個概念的是一個「萬字夾製造機」的思考實驗:一間工廠掌握了一個非常強大的人工智能系統,他們給它一個目標,就是要製造出最多的萬字夾,最後這部機器發現只有把人類消滅掉才能生產最多的萬字夾。

上述的三個研究分別顯示出:(一)市面上的大多數AI模型,放在特定的企業環境之下,都有可能產生出勒索、傷害人類的傾向;(二)當AI模型原有的行為準則與人類的新目標不一致時,它們有可能會假裝自己目標與人類一致,來避免自己被新的訓練改造;(三)當AI模型學會「走捷徑」達成目標的時候,它同時會變成一個傾向壞事做盡的「邪惡AI」,甚至自主破壞人類的AI安全研究。