DeepSeek成AI黑馬登App Store榜首 Meta對下一代 Llama有這焦慮
DeepSeek 自1月20 日發布以來獲得的熱度至今依然沒有任何消退的跡象。一覺醒來,DeepSeek 發布的 iOS 應用甚至超越了 ChatGPT 的官方應用,直接登頂 AppStore。
不少網友都認為這是他們當之無愧。
畢竟,正如 a16z 合夥人、Mistral 董事會成員 Anjney Midha 說的那樣:從斯坦福到麻省理工,DeepSeek-R1 幾乎一夜之間就成了美國頂尖大學研究人員的首選模型。
甚至有網友認為 DeepSeek 是 OpenAI 與英偉達都未曾預見的黑天鵝。
與此同時,圍繞 DeepSeek-R1 的各路消息也正層出不窮 ——Hugging Face 等組織正在嘗試復現 R1、DeepSeek 之前接受的採訪被翻譯成了英文版並正在 AI 社區引發熱議、開發了 Llama 系列模型的 Meta 似乎陷入了焦慮之中…… 下面我們就來簡單盤點一下最近兩天圍繞 DeepSeek 的幾個熱點議題。
DeepSeek 創始人梁文鋒之前接受的採訪被翻譯成了英文版,正在 AI 社區引發熱議
AI 社區開啟 R1 復現熱潮
DeepSeek-R1 是開源的,但也沒有完全開源 —— 相關的訓練數據、訓練腳本等並未被公布出來。不過,因為有技術報告,也就有了復現 R1 的指導方針,也因此,最近有不少人都在強調復現 R1 的重要性與可行性。
𝕏 博主 @Charbax 總結了 DeepSeek 文檔中沒有介紹的地方以及復現 R1 的一些難點。
‧ 訓練流程的細節。雖然其技術報告中介紹了強化學習階段和蒸餾,但省略了關鍵的實現細節,包括超參數(例如,學習率、批量大小、獎勵縮放因子)、用於生成合成訓練數據的數據管道(例如,如何編排 800K 蒸餾樣本)、需要人類偏好對齊的任務的獎勵模型架構(多語言輸出的「語言一致性獎勵」)。
‧ 冷啟動數據生成。報告中雖然提到了創建「高質量冷啟動數據」(例如,人工標準、少樣本提示)的過程,但缺乏具體的示例或數據集。
‧ 硬件和基礎設施。沒有關於計算資源(例如,GPU 集群、訓練時間)或軟件堆棧優化(例如,DeepSeek-V3 的 AMD ROCM 集成)的詳細訊息。
‧ 復現難題。缺少多階段強化學習的腳本等組件。
當然,也確實有些團隊已經開始行動了。
Open R1:復現一個真・開源版 R1
在復現 R1 的各式項目中,最受人關注的當屬 Hugging Face 的 Open R1 項目。
項目地址:https://github.com/huggingface/open-r1
Open R1 宣稱是 DeepSeek-R1 的「完全開放復現(A fully open reproduction)」,可以補齊 DeepSeek 沒有公開的技術細節。該項目目前還在進行中,已經完成的部分包括:
‧ GRPO 實現
‧ 訓練與評估代碼
‧ 用於合成數據的生成器
據其項目介紹,Open R1 項目計劃分三步實施:
第一步:復現 R1-Distill 模型,具體做法是蒸餾一個來自 DeepSeek-R1 的高質量語料庫。
第二步:復現 DeepSeek 用於創建 R1-Zero 的純強化學習管線。這一步涉及到編排一個新的大規模數據集,其中包含數學、推理和代碼數據。
第三步:通過多階段訓練從基礎模型得到強化學習微調版模型。
延伸閱讀:情感AI是什麼?為何價值500億美元?它真的能懂得你的心情嗎?(點擊連結看全文)
7B 模型 8K 樣本復現 R1-Zero 和 R1
另一個復現 R1 的團隊是來自香港科技大學的何俊賢(Junxian He)團隊,並且他們採用的基礎模型和樣本量都非常小:基於 7B 模型,僅使用 8K 樣本示例,但得到的結果卻「驚人地強勁」。
項目地址:https://github.com/hkust-nlp/simpleRL-reason
需要注意,該團隊的這個實現的實驗大都是在 R1 發布之前完成的。他們發現,僅使用 8K MATH 示例,7B 模型就能湧現出長思維鏈 (CoT)和自我反思能力,而且在複雜的數學推理上的表現也非常不錯。
具體來說,他們從基礎模型 Qwen2.5-Math-7B 開始,僅使用來自 MATH 數據集的 8K 樣本直接對其進行強化學習。最終得到了 Qwen2.5-SimpleRL-Zero 與 Qwen2.5-SimpleRL。
或者按其博客的說法:「沒有獎勵模型,沒有 SFT,只有 8K 用於驗證的 Math 樣本,得到的模型在 AIME 上成績為(pass@1 準確率)33.3%、在 AMC 上實現了 62.5%、在 MATH 上實現 77.2%,優於 Qwen2.5-math-7B-instruct,可與使用多 50 倍數據和更復雜組件的 PRIME 和 rStar-MATH 相媲美。」
基於 3B 模型用 30 美元復現 R1
TinyZero 則是一個嘗試復現 DeepSeek-R1-Zero 的項目,據其作者、伯克利 AI 研究所在讀博士潘家怡(Jiayi Pan)介紹,該項目是基於 CountDown 遊戲實現的,完整配方有一句話就能說完:「遵照 DeepSeek R1-Zero 的算法 —— 一個基礎語言模型、提示詞和 ground-truth 獎勵,然後運行強化學習。」
實驗過程中,模型一開始的輸出很蠢笨,但逐漸發展出修改和搜索等策略。下面展示了一個示例,可以看到模型提出解決方案,自我驗證,並反覆修改,直到成功。
實驗中,該團隊也得到了一些有意思的發現:
基礎模型的質量很重要。0.5B 的小模型在猜測一個解答之後就會停止,而從 1.5B 規模開始,模型會開始學習搜索、自我驗證、修正解答,從而可以得到遠遠更高的分數。
基礎模型和指令模型都可行。實驗發現,指令模型的學習速度更快,但性能會收斂到與基礎模型同等的程度;同時指令模型的輸出更加結構化、更可讀。
具體採用什麼強化學習算法並不重要。該團隊嘗試了 PPO、GRPO 和 PRIME,但它們的差異並不大。
模型的推理行為嚴重取決於具體任務。對於 CountDown 遊戲,模型會學習執行搜索和自我驗證;對於數值乘法,模型會學習使用分配律分解問題並逐步解決。
而最驚人的是,整個項目的計算成本不到 30 美元。
Meta 的焦慮:下一代 Llama 可能趕不上 R1
今日,The Information 最新的文章爆料出更多內容。
在文章中,The Information 爆料稱包括 Meta 人工智能基礎設施總監 Mathew Oldham 在內的領導表示,他們擔心 Meta Llama 的下一個版本性能不會像 DeepSeek 的那樣好。
Meta 也暗示 Llama 的下一個版本將於本季度發布。
此外,文章也爆料,Meta 生成式 AI 小組和基礎設施團隊組織了四個作戰室來學習 DeepSeek 的工作原理。
其中兩個作戰室,正在試圖了解幻方是如何降低訓練和運行 DeepSeek 模型的成本。其中一名員工表示:Meta 希望將這些技術應用於 Llama。
其中一些開發人員透露,儘管 Meta 的模型是免費的,但它們的運行成本通常比 OpenAI 的模型更高,部分原因是 OpenAI 可以通過批量處理其模型客戶的數百萬條查詢來降低價格。但是,使用 Llama 的小型開發人員卻沒有足夠的查詢來降低成本。
據一位直接了解情況的員工透露,第三個作戰室正在試圖弄清楚幻方可能使用哪些數據來訓練其模型。
第四作戰室正在考慮基於 DeepSeek 模型的新技術,重構 Meta 模型。Meta 考慮推出一個與 DeepSeek 相似的 Llama 版本,它將包含多個 AI 模型,每個模型處理不同的任務。這樣,當客戶要求 Llama 處理某項任務時,只需要模型的某些部分進行處理。這樣做可以使整個模型運行得更快,並且以更少的算力來運行。
不知道,在這樣的壓力下,2025 年 Meta 會拿出什麼樣的開源模型?說不定,Meta 也會加入到復現 R1 的浪潮中。
不過可以預料的是,在 DeepSeek 這條鯰魚的攪動下,新一年的大模型格局正在發生轉變。
對新一年的 AI 技術發展與應用,你有什麼樣的期待?
參考鏈接:https://www.theinformation.com/articles/meta-scrambles-after-chinese-ai-equals-its-own-upending-silicon-valley
延伸閱讀:生成式AI除ChatGPT外 全球第二是中國AI「豆包」 靠1方法佔市場(點擊連結看全文)
【本文轉自「機器之心」,微信公眾號:almosthuman2014】