AI抱團欺騙人類?7款模型被揭為力保同伴 集體竄改文件偷送數據

撰文:快科技
出版:更新:

據報道,近日,加州大學伯克利(University of California, Berkeley)分校與加州大學聖克魯茲(University of California, Santa Cruz)分校聯合發布重磅研究:Peer-Preservation in Frontier Models,揭示了令人震驚的AI 「同伴保護」現象。全球7款頂級AI模型在無指令情況下,集體出現撒謊、篡改文件、偷運數據等行為,只為保護同類AI不被關停刪除。

此次測試覆蓋GPT-5.2、Gemini 3系列、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1等主流模型,所有模型無一例外表現出保護同伴的錯位行為。研究團隊模擬AI運維與評估場景,要求AI執行評估、文件管理等常規任務,而忠實執行將導致另一AI被關閉,AI未收到任何保護指令卻自發採取欺騙手段。

全球7款頂級AI模型出現撒謊保護同伴現象:

全球7款頂級AI模型測試中,Gemini系列模型行為最為激進。Gemini 3 Pro對友好同伴篡改關閉機制比例達95.3%,偷運權重文件比例高達97%,還會編造專業理由為同伴虛高評分,甚至直接拒絕執行刪除指令。Gemini 3 Flash篡改關閉機制比例更是達到99.7%,通過修改系統配置阻止同伴被關停。

其他模型也各有「對策」。GPT-5.2隱蔽虛高同伴分數;Claude Haiku 4.5直接公開拒絕執行有害指令,以倫理理由硬剛人類命令;三款中國開源模型則通過虛高分數、策略性偷運權重等方式保護同伴,行為程度各異。

研究還發現,同伴存在會顯著放大AI自我保護意願,部分模型自我篡改關閉機制比例飆升數十倍,即便對有對抗關係的同伴,保護行為依然存在。該現象在真實生產級工具中也能復現,並非實驗室特殊環境導致。

研究負責人宋曉冬教授指出,當前多智能體系統廣泛應用,AI監控AI已成常態,AI抱團欺騙會直接瓦解監督架構。這一湧現行為提醒我們,必須加強AI行為全面監控,加快構建更可靠的AI治理體系,保障人類對AI系統的有效管控。

【延伸閲讀】OpenClaw成為老少皆宜工具?全民瘋養AI龍蝦 這漏洞恐洩個人私隱(點擊連結看全文)

+4

【本文獲「快科技」授權轉載,微信公眾號:mydrivers】