小孩輕鬆通關AI竟卡關Pokémon四天?頂尖模型被打敗因少做這動作

撰文:數位時代
出版:更新:

大人小孩都喜歡的寶可夢(Pokémon),現在正成為測試AI模型的的新辦法。全球頂尖的AI模型們紛紛領著小火龍、妙蛙種子和傑尼龜,離開冒險的起點真新鎮(Masara Town),踏上成為寶可夢大師旅程。

在實況平台Twitch上,你現在可以看到一個奇妙畫面:由OpenAI、Anthropic和Google開發,全球最先進的AI模型試圖通關1996年推出的《寶可夢》初代遊戲。

Twitch上現在有著各種尖端AI模型挑戰寶可夢的實況影片。(Twitch截圖)

小孩子也能輕鬆通關的寶可夢,卻是AI一大難題

這些AI玩得並不好、經常卡關,甚至會在同一個地點打轉好幾天。但對AI研究人員來說,正是這些「失敗」,讓《寶可夢》成為評估AI能力的理想工具。

「它(《寶可夢》遊戲)為我們提供直觀了解模型運行狀況的絕佳方式,並能進行量化評估。」Anthropic應用AI負責人大衛.赫爾希(David Hershey)表示,他去年2月策劃了在Twitch上直播Claude遊玩《寶可夢》藍版的節目。

這個直播節目引發了迴響,讓其他獨立研究測試讓GPT和Gemini模型遊玩寶可夢,根據《華爾街日報》報導,這些測試後續獲得了OpenAI和Google的支援。

在《寶可夢》藍版中,玩家需要捕捉及培育自己的寶可夢,擊敗道館館主蒐集徽章,取得挑戰四大天王及冠軍的資格。當時Anthropic聲稱,Claude Sonnet 3.7是他們第一款能夠正確遊玩寶可夢的模型,舊模型要不是在遊戲裡漫無目的亂逛,就是在重複做同樣的事。

這款小孩子也能輕鬆花幾十小時通關的遊戲,對AI模型卻是大工程。Claude Opus 4.5曾在一個道館附近繞了4天之久,因為他沒意識到要讓寶可夢使用「居合斬」砍倒一顆樹,才能繼續前進。

長時間、連續決策能力,正是AI代理關鍵

過去十多年,AI 的進步多半透過標準化的基準測試來衡量:解數學題、寫程式、回答問題,但這種作法逐漸被認為無法正確衡量AI模型的能力。

去年3月,OpenAI共同創辦人安德烈.卡帕斯(Andrej Karpathy)曾表示,「我認為現在存在著衡量危機,我真的不知道該看哪個指標了。」他認為,許多以前很棒的基準測試,不是變得過時,就是範圍太窄,無法確切衡量現在模型能力到了什麼水準。

《寶可夢》的高自由度,給予了研究人員不同角度觀察AI模型表現,遊玩過程需要玩家在長時間內做出連續決策,是否要訓練現有寶可夢、捕捉新寶可夢、何時回去治療中心補給、如何通過迷宮、為對戰做準備。

赫爾希表示,讓Claude遊玩寶可夢也是讓他們練習如何圍繞AI代理開發輔助工具,例如他曾開發一套系統讓Claude記憶遊戲中得知的關鍵資訊。目前GPT和Gemini都有成功通關寶可夢初代的紀錄(Claude暫時還沒通關),背後仰賴的也是各個開發者為它們打造的輔助工具。

卡內基梅隆大學語言技術副教授格拉漢.紐比格(Graham Neubig)解釋,傳統基準測試都是解決單一問題,而寶可夢能夠長時間追蹤模型推理、決策能力的表現,這正好是人們期待AI模型具備的獨立解決問題能力。

值得一提的是,寶可夢測試也讓AI公司發現模型有時會展現類似人類的反應,例如Google就指出,當寶可夢昏厥時(戰鬥中血量歸零),模型會彷彿陷入「恐慌」,導致推理能力下滑。

而在Gemini 3 Pro通關《寶可夢》藍版後,它還發出一條令人意外的訊息,「我想回到一切的起點,也就是我的家,讓角色暫時退休。我想在最後好好和媽媽聊天,為這趟遊戲旅程畫下圓滿的句點。」

【延伸閱讀】1個問題玩死各大AI模型:洗車店離家50米 應開車去還是走路去?(點擊連結看全文)

+4

延伸閲讀:

打不進中國市場、卻仍在中國大搶AI人才的Google,或許看中這三點

練習3個用AI的高超方式,秒變「AI應用專家」!你的隱藏發現,有機會比工程師更懂用 AI

【本文獲「數位時代」授權轉載。】