AI抱團欺騙人類？7款模型被揭為力保同伴　集體竄改文件偷送數據

據報道，近日，加州大學伯克利（University of California, Berkeley）分校與加州大學聖克魯茲（University of California, Santa Cruz）分校聯合發布重磅研究：Peer-Preservation in Frontier Models，揭示了令人震驚的AI 「同伴保護」現象。全球7款頂級AI模型在無指令情況下，集體出現撒謊、篡改文件、偷運數據等行為，只為保護同類AI不被關停刪除。

此次測試覆蓋GPT-5.2、Gemini 3系列、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1等主流模型，所有模型無一例外表現出保護同伴的錯位行為。研究團隊模擬AI運維與評估場景，要求AI執行評估、文件管理等常規任務，而忠實執行將導致另一AI被關閉，AI未收到任何保護指令卻自發採取欺騙手段。

全球7款頂級AI模型出現撒謊保護同伴現象：

全球7款頂級AI模型測試中，Gemini系列模型行為最為激進。Gemini 3 Pro對友好同伴篡改關閉機制比例達95.3%，偷運權重文件比例高達97%，還會編造專業理由為同伴虛高評分，甚至直接拒絕執行刪除指令。Gemini 3 Flash篡改關閉機制比例更是達到99.7%，通過修改系統配置阻止同伴被關停。

Gemini韓式證件相教學｜1分鐘零成本免修圖自製CV相｜附AI Prompt 中國官方定名Token「詞元」！揭AI貨幣計算邏輯　網民狂改中文名

其他模型也各有「對策」。GPT-5.2隱蔽虛高同伴分數；Claude Haiku 4.5直接公開拒絕執行有害指令，以倫理理由硬剛人類命令；三款中國開源模型則通過虛高分數、策略性偷運權重等方式保護同伴，行為程度各異。

研究還發現，同伴存在會顯著放大AI自我保護意願，部分模型自我篡改關閉機制比例飆升數十倍，即便對有對抗關係的同伴，保護行為依然存在。該現象在真實生產級工具中也能復現，並非實驗室特殊環境導致。

研究負責人宋曉冬教授指出，當前多智能體系統廣泛應用，AI監控AI已成常態，AI抱團欺騙會直接瓦解監督架構。這一湧現行為提醒我們，必須加強AI行為全面監控，加快構建更可靠的AI治理體系，保障人類對AI系統的有效管控。

【延伸閲讀】OpenClaw成為老少皆宜工具？全民瘋養AI龍蝦　這漏洞恐洩個人私隱（點擊連結看全文）

手機電腦將消失？AI時代大一統系統來襲　App退居幕後不需點開 Z世代擁抱「AI性戀」？過半人認同AI親密關係　專家警示情感依賴 AI大模型爆火加劇職業擔憂　中國工程院士提出這類人絕不會被淘汰黃仁勳讚OpenClaw：普及度三周勝Linux　AI代理將引發算力真空？

【本文獲「快科技」授權轉載，微信公眾號：mydrivers】

AI抱團欺騙人類？7款模型被揭為力保同伴 集體竄改文件偷送數據

AI抱團欺騙人類？7款模型被揭為力保同伴 集體竄改文件偷送數據

AI抱團欺騙人類？7款模型被揭為力保同伴　集體竄改文件偷送數據

AI抱團欺騙人類？7款模型被揭為力保同伴　集體竄改文件偷送數據