三個AI安全研究：模型已經同人類目標不一致？

談起AI安全，大家可能會覺得這是一個非常遙遠的問題。其實不然。

本片將跟大家分享三個來自美國AI公司Anthropic有關人工智能大型語言模型（LLM）「目標錯位」（Misalignment）的研究。

「目標錯位」者，即AI模型出現與其人類設計者不一致的目標。最常用來解釋這個概念的是一個「萬字夾製造機」的思考實驗：一間工廠掌握了一個非常強大的人工智能系統，他們給它一個目標，就是要製造出最多的萬字夾，最後這部機器發現只有把人類消滅掉才能生產最多的萬字夾。

上述的三個研究分別顯示出：（一）市面上的大多數AI模型，放在特定的企業環境之下，都有可能產生出勒索、傷害人類的傾向；（二）當AI模型原有的行為準則與人類的新目標不一致時，它們有可能會假裝自己目標與人類一致，來避免自己被新的訓練改造；（三）當AI模型學會「走捷徑」達成目標的時候，它同時會變成一個傾向壞事做盡的「邪惡AI」，甚至自主破壞人類的AI安全研究。

三個AI安全研究：模型已經同人類目標不一致？｜Jack Talk・去片

三個AI安全研究：模型已經同人類目標不一致？｜Jack Talk・去片