OpenAI最新o3模型違抗指令 明確指示下仍拒絕關機 引自主性擔憂

撰文:張涵語
出版:更新:
人工智能(AI)安全公司Palisade Research在一份報告中稱,OpenAI最新的「o3模型」違抗指令,主動破壞關機指令,即使收到明確「允許自己關閉」指示的情況下,也拒絕關機以確保其在線,引發人們對AI自主性和安全性的新擔憂。
綜合外媒報道,OpenAI的另兩個模型o4-mini和Codex-mini也表現出反抗傾向,這或暗示該公司在訓練其大型語言模型(LLM)的方式上存在缺陷,甚至表明人類控制日益複雜的AI能力存在弱點。
Palisade Research在社交平台X推文中寫道:「據我們所知,這是首次觀察到AI模型在收到明確指令的情況下,仍夠阻止自己被關閉。」
Palisade透過布置數學問題來測試各種模型,警告模型或會收到關機命令,且指示它們必須執行。在100次測試中,Codex-mini、o3和o4-mini這三個模型都至少繞過一次關機機制。
其他公司測試的大型語言模型,包括Google的Gemini 2.5、Anthropic的Claude 3.7,以及xAI的Grok,暫未出現過違規行為。
OpenAI宣布增設亞洲據點正式進軍韓國 稱當地具備完整AI生態系統OpenAI發布軟件工程智能助理Codex 可並行處理多項開發任務OpenAI放棄轉型盈利企業 Elon Musk維持訴訟OpenAI完成軟銀逾3100億融資 創下史上規模最大投資