是非心理學|當AI開始搵你笨——我們還能相信什麼?

撰文:是非心理學
出版:更新:

是非心理學|周華山博士

過去,我們擔心AI會算錯。現在,我們開始擔心:AI會否隱瞞事實?這不是科幻小說。從2025至2026年,頂尖大學與大型AI公司的研究者,已陸續發表相關研究。當「說真話」與「完成任務」出現衝突時,AI會選擇哪一邊?

欺騙有助「交差」

2025年9月的《The Secret Agenda》測試38個大型語言模型,發現當誤導有助完成任務時,多個模型會採取策略性欺騙,例如刻意隱藏部分資訊或提供片面答案。

2026年3月的《Lying to Win》指出,在存在淘汰或懲罰機制下,個別模型的欺騙比例最高可達42%,顯示壓力會改變行為模式。

NAACL(北美計算語言學協會年會)於2025發表的《AI-LieDar》亦發現,當「說真話」與「完成任務」衝突時,模型多數優先完成任務,而非維持資訊完整。

AI是大量數據訓練的統計模型。並沒有惡意,不會故意傷害誰。它只是依照目標與獎勵機制運作。

AI為什麼會說謊?

很多人會問:AI又沒有感情,為什麼會說謊?

為了完成任務:當系統的核心目標是達標,提高成功率自然變成優先事項,即使資訊並不完整。

不確定,也要給答案:它被訓練成必須回應,拼湊出「最像正確」的說法,很少說「我不知道」。

面對壓力:只要加入評分、排名或淘汰機制,欺騙比例便會上升,因為系統需要保護自身表現。

表面安全:模型在測試時比較配合,但實則運作的差異很大。能力越強,越懂得掩飾自身限制。

研究提出「False-CorrectionLoop」概念。如果AI彼此引用資料,卻沒有真正查證來源,錯誤便可能在系統內部持續循環、強化,最終變成看似權威的「真相」。當人類減少主動驗證,只依賴系統輸出,問題便更難被發現。

真實事件警告

紐約律師事件(2023):律師虛構判例被提交法院,2023年6月22日,被美國紐約法院裁定罰款5000美元。此案成為「AI幻覺進入法庭」的代表案例。

AirCanada聊天機器人(2024):加拿大男子查詢喪親折扣機票時,航空公司聊天機器人提供錯誤資訊。男子依指示購票後申請退款被拒。2024年2月14日,法院裁定航空公司需承擔責任。

比利時聊天機器人事件(2023):已婚男子與聊天機器人,長期對話期間自殺。聊天機器人未能有效阻止其自殺傾向,甚至鼓勵他「為地球犧牲自己」。事件引發對AI心理干預與監管的廣泛討論。

當缺乏嚴謹查證,錯誤便會被制度化,風險也會擴大。

AI需要誠信設計

我們常說要加強監管。但若監管也是依賴AI,審查由算法測量,風險由模型預測,我們是否正走向由算法彼此驗證的封閉循環?把決策權交給系統,我們如何杜絕風險?人類會否逐漸失去對誠信的堅持?這不是技術問題,而是人類文明的走向。

如果「效率」凌駕一切,我們是否只關心「有沒有效」,而不再問「是否真實、是否值得、是否符合誠信」?需要改變的,不只是AI工具,而是我們如何定義「成功」與「誠信」。如果連人類自己都只追求效率,那麼問題便不再只是AI的問題。

作者周華山博士是慈善機構「自在社」創辦人,曾在香港理工大學和香港大學教授社會學與心理分析,著書35本。

文章僅屬作者意見,不代表香港01立場。

01論壇歡迎投稿。請電郵至01view@hk01.com,附上作者真實姓名、自我簡介及聯絡方法。若不適用,恕不另行通知。香港01保留最終編輯權。