DeepSeek升級R1模型逼近OpenAI o3 解題能力提升至87.5%準確率

撰文:許祺安
出版:更新:

中國AI新創企業深度求索(DeepSeek)5月29日發布升級公告,宣布旗下旗艦模型DeepSeek-R1已完成小版本更新,升級版本為DeepSeek-R1-0528。官方表示,此版本在數學、編程與通用邏輯等多項基準測評中表現優異,已達中國本土模型領先水準,整體能力更接近OpenAI o3與Gemini-2.5-Pro等國際頂尖模型。

根據公告,新版本基於去年12月推出的DeepSeek V3 Base模型,經過大規模算力強化後訓練,有效提升了思維深度與推理能力。在AIME2025測評中,新版模型準確率從舊版的70%提升至87.5%。官方指出,這項進步源於新版模型在解題過程中展現出更深層的邏輯處理能力,例如平均每題使用token數由舊版的12K增至23K。

DeepSeek表示,R1-0528版本的「思維鏈」特性,對於學術界推理模型研究與產業界開發輕量級模型均具有指標意義。

DeepSeek的性能比肩ChatGPT,且其採用全新的訓練模式,將推理模型的成本壓縮到很低,還大膽地採用開源模式,令更多用戶能夠輕松嘗試和部署AI模型。(視覺中國)

針對長期困擾語言模型應用的「幻覺」問題,DeepSeek亦進行優化。新版R1在改寫潤色、摘要生成與閱讀理解等任務中的幻覺率較舊版下降約45%至50%,能提供更準確可靠的回答。

除邏輯與精準度提升外,DeepSeek-R1-0528在文本生成表現亦有強化。根據官方說法,新版模型在議論文、小說與散文等長文體輸出方面表現更為出色,能撰寫出篇幅更長、結構更完整、風格更貼近人類偏好的文本。

DeepSeek亦坦言,儘管R1-0528在多項測評中已達OpenAI o1-high水平,但與o3-High與Anthropic Claude 4 Sonnet等最新國際模型仍存在差距,後續仍將持續優化。