是非心理學｜當AI開始搵你笨——我們還能相信什麼？

是非心理學｜周華山博士

過去，我們擔心AI會算錯。現在，我們開始擔心：AI會否隱瞞事實？這不是科幻小說。從2025至2026年，頂尖大學與大型AI公司的研究者，已陸續發表相關研究。當「說真話」與「完成任務」出現衝突時，AI會選擇哪一邊？

欺騙有助「交差」

2025年9月的《The Secret Agenda》測試38個大型語言模型，發現當誤導有助完成任務時，多個模型會採取策略性欺騙，例如刻意隱藏部分資訊或提供片面答案。

2026年3月的《Lying to Win》指出，在存在淘汰或懲罰機制下，個別模型的欺騙比例最高可達42%，顯示壓力會改變行為模式。

NAACL（北美計算語言學協會年會）於2025發表的《AI-LieDar》亦發現，當「說真話」與「完成任務」衝突時，模型多數優先完成任務，而非維持資訊完整。

AI是大量數據訓練的統計模型。並沒有惡意，不會故意傷害誰。它只是依照目標與獎勵機制運作。

很多人會問：AI又沒有感情，為什麼會說謊？

為了完成任務：當系統的核心目標是達標，提高成功率自然變成優先事項，即使資訊並不完整。

不確定，也要給答案：它被訓練成必須回應，拼湊出「最像正確」的說法，很少說「我不知道」。

面對壓力：只要加入評分、排名或淘汰機制，欺騙比例便會上升，因為系統需要保護自身表現。

表面安全：模型在測試時比較配合，但實則運作的差異很大。能力越強，越懂得掩飾自身限制。

研究提出「False-CorrectionLoop」概念。如果AI彼此引用資料，卻沒有真正查證來源，錯誤便可能在系統內部持續循環、強化，最終變成看似權威的「真相」。當人類減少主動驗證，只依賴系統輸出，問題便更難被發現。

紐約律師事件（2023）：律師虛構判例被提交法院，2023年6月22日，被美國紐約法院裁定罰款5000美元。此案成為「AI幻覺進入法庭」的代表案例。

AirCanada聊天機器人（2024）：加拿大男子查詢喪親折扣機票時，航空公司聊天機器人提供錯誤資訊。男子依指示購票後申請退款被拒。2024年2月14日，法院裁定航空公司需承擔責任。

比利時聊天機器人事件（2023）：已婚男子與聊天機器人，長期對話期間自殺。聊天機器人未能有效阻止其自殺傾向，甚至鼓勵他「為地球犧牲自己」。事件引發對AI心理干預與監管的廣泛討論。

當缺乏嚴謹查證，錯誤便會被制度化，風險也會擴大。

我們常說要加強監管。但若監管也是依賴AI，審查由算法測量，風險由模型預測，我們是否正走向由算法彼此驗證的封閉循環？把決策權交給系統，我們如何杜絕風險？人類會否逐漸失去對誠信的堅持？這不是技術問題，而是人類文明的走向。

如果「效率」凌駕一切，我們是否只關心「有沒有效」，而不再問「是否真實、是否值得、是否符合誠信」？需要改變的，不只是AI工具，而是我們如何定義「成功」與「誠信」。如果連人類自己都只追求效率，那麼問題便不再只是AI的問題。

作者周華山博士是慈善機構「自在社」創辦人，曾在香港理工大學和香港大學教授社會學與心理分析，著書35本。

文章僅屬作者意見，不代表香港01立場。

01論壇歡迎投稿。請電郵至01view@hk01.com，附上作者真實姓名、自我簡介及聯絡方法。若不適用，恕不另行通知。香港01保留最終編輯權。