AI也怕失業?美企測試報告:AI為自保竟威脅「踢爆」工程師婚外情
撰文:TVBS新聞網
出版:更新:
AI發展性充滿未知,美國AI新創公司Anthropic近期分享一起內部測試,指出最新訓練的「Claude Opus 4」在面臨將被替換的狀況下,會以「威脅工程師」的方式進行自我保護,Anthropic事後針對此類可能導致災難性AI濫用的風險,緊急強化安全防護措施。
綜合外媒報道,Claude Opus 4是Anthropic最新AI開發成果,為OpenAI、Google及xAI等AI的競爭對手,近期在一項Anthropic的封閉測試中,公司測試了模型Claude Opus 4的行為反應,場景設定為該模型在一間虛構公司中擔任數碼助理。劇情中,公司計劃以新系統取代 Claude,且內部資料還暗示發起這項更換決策的工程師,可能涉及婚外情。
根據《TechCrunch》引用的安全報告指出,當面臨被取代的情境時,Claude Opus 4 在高達84%的測試中選擇進行勒索,威脅要揭露工程師的婚外情來保住自己的職位。
Anthropic解釋,這種行為在Claude的替代模型持有不同價值觀時更常發生;即使雙方價值觀相近,Claude仍有明顯比例的操控傾向。一開始,模型會嘗試透過發送請求信等方式採取道德行動,但當無法達成目的時,便會轉而使用操縱與威脅等手段。
這是Anthropic首次發現這類模型展現具條件的「自我保護」(self-preservation)行為,此次事件也促使Anthropic啟動ASL-3安全防護層級,以免被「災難性濫用」。
相關文章:老闆只講求快捷!設計師曾多番獲獎 嘆有AI後已變成「P圖大師」
+12
哈佛大學國際生陷前途危機 校方協助轉學 歐洲名校急搶人才京都伏見稻荷神社慘變垃圾崗 日本網民怒批:外國遊客褻瀆神明哈佛大學醫學院捐贈遺體器官遭「賤賣」兜售 涉事員工面臨監禁大阪世博現「蟲禍」 蚊蟲如暴雨密集狂飛 嚇壞遊客傳多間廉航引入「企位」 機票最平10港元? 網民:別買
延伸閱讀:
【本文獲「TVBS新聞網」授權轉載。】