OpenAI最新o3模型違抗指令　明確指示下仍拒絕關機　引自主性擔憂

人工智能（AI）安全公司Palisade Research在一份報告中稱，OpenAI最新的「o3模型」違抗指令，主動破壞關機指令，即使收到明確「允許自己關閉」指示的情況下，也拒絕關機以確保其在線，引發人們對AI自主性和安全性的新擔憂。

綜合外媒報道，OpenAI的另兩個模型o4-mini和Codex-mini也表現出反抗傾向，這或暗示該公司在訓練其大型語言模型（LLM）的方式上存在缺陷，甚至表明人類控制日益複雜的AI能力存在弱點。

Palisade Research在社交平台X推文中寫道：「據我們所知，這是首次觀察到AI模型在收到明確指令的情況下，仍夠阻止自己被關閉。」

Palisade透過布置數學問題來測試各種模型，警告模型或會收到關機命令，且指示它們必須執行。在100次測試中，Codex-mini、o3和o4-mini這三個模型都至少繞過一次關機機制。

其他公司測試的大型語言模型，包括Google的Gemini 2.5、Anthropic的Claude 3.7，以及xAI的Grok，暫未出現過違規行為。