最新AI評測出爐:國產模型僅可爭全球第五 難撼海外巨頭霸榜優勢
SuperCLUE最新中文大模型測評結果出爐,全球第一梯隊被海外模型牢牢佔據,國產表現最好的三款模型,只能在全球第五名的位置上激烈競爭。
本次測評覆蓋21款國內外主流模型,測評集包括六大任務:數學推理、科學推理、代碼生成、智能體(任務規劃)、精確指令遵循、幻覺控制,共492題。
Gemini、GPT-5.5、Claude-Opus、Gemini-Flash四款海外模型穩居前四,形成難以撼動的第一梯隊。
DeepSeek-V4-Pro、Qwen3.7-Max、豆包Seed 2.0 Pro三款國產模型分數非常接近,組成國內第一梯隊,全球排名集中在第五位附近,成為國產第一集團。
各廠商大模型在其它維度上的排名▼▼▼
雖然整體仍有差距,但國產模型進步很明顯。代碼生成項目中,Qwen3.7-Max得分僅次於海外頭部模型,差距不到2分。數學推理、科學推理等項目,國產模型也多次衝進全球前列。
性價比方面,國產模型優勢突出,多款產品進入高性價比區間,用更低成本實現接近頭部的效果。推理效能上,海外模型仍壟斷高效能區,國產模型多處在中低區間,還有提升空間。
整體來看,國產大模型正在快速追趕,但全球第一梯隊的格局暫時沒變。
【延伸閲讀】Google全新AI搜尋上線 加Gemini功能 徹底終結25年點擊網頁習慣
+5
日本47歲大叔用AI網美月入10萬 Claude+社交平台引流=自動變現AI總一本正經「胡說八道」?央視解構AI幻覺根源 附兩招規避技巧貪快用AI寫東西會變無腦?Google高層警告工程師正喪失思考力現在是否投資 AI 並建立數碼員工團隊的最佳時機?|蘇仲成Google推出Android XR眼鏡主打潮流穿搭 搭載Gemini涵蓋7大功能
【本文獲「快科技」授權轉載,微信公眾號:mydrivers】