DeepSeek重創Nvidia股價 清華大學教授揭開降低模型成本秘密

DeepSeek重創Nvidia股價 清華大學教授揭開降低模型成本秘密
撰文:朱加樟
出版:更新:

國產大模型DeepSeek轟動全球,造成美國股市震盪,科技公司英偉達(Nvidia,又譯輝達)股價在美國當地時間27日單日暴跌近17%,市值損失創紀錄的5,890億美元。中國工程院院士、清華大學計算機系教授鄭緯民分析DeepSeek成功關鍵。

DeepSeek在美區蘋果App Store免費榜上已經排在第一位,力壓先前霸榜的ChatGPT,而排在第三的則是Meta旗下的Threads。
DeepSeek在美區蘋果App Store免費榜上已經排在第一位,力壓先前霸榜的ChatGPT,而排在第三的則是Meta旗下的Threads。

內媒《新浪科技》報道,目前,業界對於DeepSeek的喜愛與讚美,主要集中在三個方面。第一,在技術層面,DeepSeek背後的DeepSeek-V3及公司新近推出的DeepSeek-R1兩款模型,分別實現了比肩OpenAI 4o和o1模型的能力。

第二,DeepSeek研發的這兩款模型成本更低,僅為OpenAI 4o和o1模型的十分之一左右。

第三,DeepSeek把這一兩大模型的技術都開源了,這讓更多的AI團隊,能夠基於最先進同時成本最低的模型,開發更多的AI原生應用。

中國工程院院士、清華大學計算機系教授鄭緯民。(《新浪科技》)

那麼,DeepSeek是如何實現模型成本的降低的呢?

中國工程院院士、清華大學計算機系教授鄭緯民指出,「DeepSeek自研的MLA架構和DeepSeek MOE架構,為其自身的模型訓練成本下降,起到了關鍵作用。」他指出,「MLA主要通過改造注意力算子壓縮了KV Cache大小,實現了在同樣容量下可以存儲更多的KV Cache,該架構和DeepSeek-V3模型中FFN 層的改造相配合,實現了一個非常大的稀疏MoE 層,這成為DeepSeek訓練成本低最關鍵的原因。」

就技術層面而言,KV Cache是一種優化技術,常被用於存儲人工智能模型運行時產生的token的鍵值對(即key- value數值),以提高計算效率。具體而言,在模型運算過程中,KV cache會在模型運算過程中充當一個內存庫的角色,以存儲模型之前處理過的token鍵值,通過模型運算計算出注意力分數,有效控制被存儲token的輸入輸出,通過「以存換算」避免了多數大模型運算每次都是從第一個token開始運算的重複計算,提升了算力使用效率。

今年1月20日,國務院總理李強主持召開專家、企業家和教科文衛體等領域代表座談會,聽取對《政府工作報告(徵求意見稿)》的意見建議,DeepSeek創辦人梁文鋒在會上發言。

此外,據鄭緯民透露,DeepSeek還解決了「非常大同時非常稀疏的MoE模型」使用的性能難題,而這也成了「DeepSeek訓練成本低最關鍵的原因」。

目前,通過MoE混合專家模型提升AI大模型的專業認知能力正成為業界公認的有效手段,而且一個大模型的專家模型數量越多,模型就越稀疏,效率也越高,但專家模型變多可能導致最終生成的結果不太準確。

據鄭緯民介紹,「DeepSeek比較厲害的是訓練MoE的能力,成為公開MoE模型訓練中第一個能訓練成功這麼大MoE的企業。」

新浪科技指,為保證大規模MoE專家模型的均衡運行,DeepSeek使用了先進的、不需要輔助損失函數的、專家加載均衡技術,保證每個token下,少量專家網絡參數被真正激活的情況下,不同的專家網絡能夠以更均衡的頻率被激活,防止專家網絡激活紮堆。

此外,DeepSeek還充分利用專家網絡被稀疏激活的設計,限制了每個token被發送往GPU集群節點(node)的數量,這使得GPU之間通信開銷穩定在較低的水位。