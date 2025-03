據內媒《每日經濟新聞》報道,3月24日晚,DeepSeek發布了模型更新——DeepSeek-V3-0324。本次更新為DeepSeek V3模型的版本更新,並非市場此前一直期待的DeepSeek-V4或R2。目前,其開源版本已上線Hugging Face。據悉,其開源版本模型體積為6850億參數。



同日,DeepSeek在其官方交流群宣布稱,DeepSeek V3模型已完成小版本升級,用戶可前往官方網頁、App、小程序試用體驗(關閉深度思考),API接口和使用方式保持不變。



此前於2024年12月發布的DeepSeek-V3模型曾以「557.6萬美金比肩Claude 3.5效果」的高性價比著稱,其多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,並在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。但截至目前,還沒有任何關於新版DeepSeek-V3的能力基準測試榜單出現。

其後,DeepSeek於2025年1月發布了性能比肩OpenAI o1正式版的DeepSeek-R1模型,該模型在後訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。

V3是一個擁有6710億參數的專家混合模型(Moe),其中370億參數處於激活狀態。在傳統的大模型中,通常會採用密集的神經網絡結構,模型需要對每一個輸入token都會被激活並參與計算,會耗費大量算力。

此外,傳統的混合專家模型中,不平衡的專家負載是一個很大難題。當負載不均衡時,會引發路由崩潰現象,這就好比交通擁堵時道路癱瘓一樣,數據在模型中的傳遞受到阻礙,導致計算效率大幅下降。

為了解決這個問題,常規的做法是依賴輔助損失來平衡負載。然而,這種方法存在一個弊端,那就是輔助損失一旦設置過大,就會對模型性能產生負面影響,就像為了疏通交通而設置過多限制,卻影響了整體的通行效率。

