OpenAI新模型東大入學試奪503分!數學科滿分 破紀錄超人類考生

撰文:賈桂琳
出版:更新:

AI發展一日千里,其聰明程度已可超越大部份人類!日本媒體《日經新聞》聯合東京AI初創公司LifePrompt(生命提示)及知名補習學校河合塾(Kawaijuku)發表最新調查,顯示OpenAI的最新模型,在2026年東京大學與京都大學入學考試表現遠超預期,不僅超越所有考生取得最高分,在東京大學醫學部理科三類考試(日本公認最難入學考試)中刷新歷年最高分紀錄,在數學科更奪得滿分,展現出超越人類考生的應試能力。

OpenAI 的最新模型,在2026年東大與京大的入學考試表現遠超預期,刷新歷年考生最高分紀錄。(AI生成圖片)

2年內由「落榜」變「首席」

據《日經新聞》報道,此次測試聚焦東京大學與京都大學這兩所日本頂尖大學的入學考試,OpenAI的「ChatGPT-5.2 Thinking」系統作為核心測試對象,接受了全方位考核。在總分為550分的東大入學考試中,該系統取得503分,遠超該校理科合格錄取最高分的453分;人文科亦取得452分,同樣高於人文科合格錄取最高分434分。面對今年難度提升的數學考卷,AI系統實現滿分,英語成績亦達到90%,展現出極強的邏輯推理與語言處理能力。

「ChatGPT-5.2 Thinking」系統成績遠超人類考生合格錄取最高分。(《墊底辣妹》劇照)

值得留意的是,這一成績較該AI模型此前的表現有跨越式進步。2024年,該模型在東大入學考試中全線落榜,但在短短2年時間,已由「不及格」進化為足以碾壓頂尖天才的「超級考生」,被LifePrompt團隊親切稱為「Chappy」的AI,其表現已成為日本教育界的熱話。

短短2年時間,AI的考試成績已由「不及格」進化為「首席」。(AI生成圖片)

Google Gemini亦表現強勁

研究團隊將考卷題目轉化為圖像數據輸入AI系統,為保證評分公平性,包含文字描述的答案均由河合塾的專業教師按照官方評分標準逐一評定,以確保結果具備權威性。除OpenAI模型外,Google的Gemini 3.0 Pro模型也同樣參與了測試,在15個主要科目中取得均分91.4的好成績,同樣遠超考生平均水平,性能同樣大幅領先人類考生平均水平。

日本網民熱議:AI超級考生出現 人類真正價值在哪?

消息在日本網絡掀起熱烈討論。有日本網民慨嘆,AI雖然能解題、拿滿分,卻不懂得出好題,它擬定的題目往往太過簡單或邏輯混亂,可見創造與設計的能力仍屬人類。亦有人指出,東大入學測試這類知識型、邏輯型考試,AI超越人類實屬意料之中,就如當年AlphaGo擊敗人類棋手一樣,只是AI發展路上的一個里程碑,很快大眾便會習以為常。

2017年AlphaGo擊敗世界圍棋冠軍柯潔拿下首勝。(網絡圖片)

不少網民開始反思教育制度的未來。有評論指出,當AI能輕易應付知識型及邏輯型考試時,人類的價值將轉向「判斷力」與「責任承擔」。未來人才的競爭力,或許不再是「記得多少、算得多快」,而是能否質疑AI的輸出,並將知識轉化為現實的決策。