小孩輕鬆通關AI竟卡關Pokémon四天？頂尖模型被打敗因少做這動作

大人小孩都喜歡的寶可夢（Pokémon），現在正成為測試AI模型的的新辦法。全球頂尖的AI模型們紛紛領著小火龍、妙蛙種子和傑尼龜，離開冒險的起點真新鎮（Masara Town），踏上成為寶可夢大師旅程。

在實況平台Twitch上，你現在可以看到一個奇妙畫面：由OpenAI、Anthropic和Google開發，全球最先進的AI模型試圖通關1996年推出的《寶可夢》初代遊戲。

Twitch上現在有著各種尖端AI模型挑戰寶可夢的實況影片。（Twitch截圖）

小孩子也能輕鬆通關的寶可夢，卻是AI一大難題

這些AI玩得並不好、經常卡關，甚至會在同一個地點打轉好幾天。但對AI研究人員來說，正是這些「失敗」，讓《寶可夢》成為評估AI能力的理想工具。

「它（《寶可夢》遊戲）為我們提供直觀了解模型運行狀況的絕佳方式，並能進行量化評估。」Anthropic應用AI負責人大衛．赫爾希（David Hershey）表示，他去年2月策劃了在Twitch上直播Claude遊玩《寶可夢》藍版的節目。

這個直播節目引發了迴響，讓其他獨立研究測試讓GPT和Gemini模型遊玩寶可夢，根據《華爾街日報》報導，這些測試後續獲得了OpenAI和Google的支援。

在《寶可夢》藍版中，玩家需要捕捉及培育自己的寶可夢，擊敗道館館主蒐集徽章，取得挑戰四大天王及冠軍的資格。當時Anthropic聲稱，Claude Sonnet 3.7是他們第一款能夠正確遊玩寶可夢的模型，舊模型要不是在遊戲裡漫無目的亂逛，就是在重複做同樣的事。

這款小孩子也能輕鬆花幾十小時通關的遊戲，對AI模型卻是大工程。Claude Opus 4.5曾在一個道館附近繞了4天之久，因為他沒意識到要讓寶可夢使用「居合斬」砍倒一顆樹，才能繼續前進。

過去十多年，AI 的進步多半透過標準化的基準測試來衡量：解數學題、寫程式、回答問題，但這種作法逐漸被認為無法正確衡量AI模型的能力。

去年3月，OpenAI共同創辦人安德烈．卡帕斯（Andrej Karpathy）曾表示，「我認為現在存在著衡量危機，我真的不知道該看哪個指標了。」他認為，許多以前很棒的基準測試，不是變得過時，就是範圍太窄，無法確切衡量現在模型能力到了什麼水準。

《寶可夢》的高自由度，給予了研究人員不同角度觀察AI模型表現，遊玩過程需要玩家在長時間內做出連續決策，是否要訓練現有寶可夢、捕捉新寶可夢、何時回去治療中心補給、如何通過迷宮、為對戰做準備。

赫爾希表示，讓Claude遊玩寶可夢也是讓他們練習如何圍繞AI代理開發輔助工具，例如他曾開發一套系統讓Claude記憶遊戲中得知的關鍵資訊。目前GPT和Gemini都有成功通關寶可夢初代的紀錄（Claude暫時還沒通關），背後仰賴的也是各個開發者為它們打造的輔助工具。

卡內基梅隆大學語言技術副教授格拉漢．紐比格（Graham Neubig）解釋，傳統基準測試都是解決單一問題，而寶可夢能夠長時間追蹤模型推理、決策能力的表現，這正好是人們期待AI模型具備的獨立解決問題能力。

值得一提的是，寶可夢測試也讓AI公司發現模型有時會展現類似人類的反應，例如Google就指出，當寶可夢昏厥時（戰鬥中血量歸零），模型會彷彿陷入「恐慌」，導致推理能力下滑。

而在Gemini 3 Pro通關《寶可夢》藍版後，它還發出一條令人意外的訊息，「我想回到一切的起點，也就是我的家，讓角色暫時退休。我想在最後好好和媽媽聊天，為這趟遊戲旅程畫下圓滿的句點。」

延伸閲讀：

【本文獲「數位時代」授權轉載。】