「AI教母」李飛飛只花20美元創造AI模型 媲美openAI和Deepseek
知名華裔美籍科學家李飛飛的研究團隊近日發布,他們成功打造出一個名為「s1-32B」的AI推理模型,該模型的部分能力可媲美openAI-o1及Deepseek-R1。而更令人震驚的是,訓練時間僅26分鐘,基本上只需花20美元、靠16個輝達(NVIDIA)H100 GPU即可。再度引起業內外人士的熱烈討論。
綜合外媒報道,李飛飛被譽為「AI教母」,這次由她領導的研究團隊所發表的論文指出,s1-32B模型在數學競賽類問題上的表現,甚至超越了OpenAI的o1預覽版,並秀出在MATH和AIME24數據集上的成績,比o1-預覽版高出27%之多。
對此,研究人員表示,s1-32B是基於阿里巴巴的開源模型的Qwen2.5-32B-Instruct,並透過監督式微調(SFT)訓練而成。他們在研究中提出了「預算控制」策略,透過加入「wait指令」等方式,強制延長模型推理過程、思考時間,以此促使模型自我檢查並修正錯誤的推理步驟,提升推理品質。
同時,s1-32B模型可視為Qwen2.5 和Google的Gemini 2.0 Flash Thinking Experimental結合體。但他們的訓練方式,可能違反了Google的使用條款。研究團隊利用精選的1000個問題和答案,記錄Gemini 2.0 Flash模型的「思考過程」,再用這些資料對Qwen2.5-32B-Instruct進行微調,這或許構成了對Google模型的逆向工程。對此,Google尚未做出回應。
另外,復旦大學計算機學院副教授鄭驍慶認為,s1-32B的低成本訓練得益於基於現成的預訓練模型,而非從零開始訓練:
微調一個模型和從零開始訓練一個模型的成本是無法相提並論的。
他也質疑,論文中提到成本是否涵蓋了其他數據、設備和實驗的費用,這些都是非常燒錢的部分。
【延伸閱讀】DeepSeek是什麼?中國低成本AI模型起革命 一文看清背景及影響(點圖放大閱讀):
儘管如此,s1-32B模型仍展現了卓越的樣本效率和推理能力,在特定測試集上明顯優於OpenAI的o1-preview。
且Deepseek同樣也被質疑並非從零開始訓練,實際成本也未完全揭露。
這次李飛飛團隊的研究重點在於找到實現「測試時拓展」的最簡單方法,相較於Deepseek使用增強式學習,所需的龐大算力。李飛飛團隊的模型能夠在推理時進行多次迭代優化,生成高品質的答案,並花費更少成本。
【延伸閱讀】OPPO Find N5確認2月這天全球發佈 接入DeepSeek聯網:輕薄大摺(點圖放大閱讀):
延伸閱讀:
【本文獲「TVBS新聞網」授權轉載。】