OpenAI最新o3模型違抗指令 明確指示下仍拒絕關機 引自主性擔憂

OpenAI最新o3模型違抗指令 明確指示下仍拒絕關機 引自主性擔憂
撰文:張涵語
出版:更新:

人工智能(AI)安全公司Palisade Research在一份報告中稱,OpenAI最新的「o3模型」違抗指令,主動破壞關機指令,即使收到明確「允許自己關閉」指示的情況下,也拒絕關機以確保其在線,引發人們對AI自主性和安全性的新擔憂。

綜合外媒報道,OpenAI的另兩個模型o4-mini和Codex-mini也表現出反抗傾向,這或暗示該公司在訓練其大型語言模型(LLM)的方式上存在缺陷,甚至表明人類控制日益複雜的AI能力存在弱點。

Palisade Research在社交平台X推文中寫道:「據我們所知,這是首次觀察到AI模型在收到明確指令的情況下,仍夠阻止自己被關閉。」

Palisade透過布置數學問題來測試各種模型,警告模型或會收到關機命令,且指示它們必須執行。在100次測試中,Codex-mini、o3和o4-mini這三個模型都至少繞過一次關機機制。

其他公司測試的大型語言模型,包括Google的Gemini 2.5、Anthropic的Claude 3.7,以及xAI的Grok,暫未出現過違規行為。

正在加載