中國DeepSeek新大模型R1 性能比肩OpenAI 外媒:成本僅30分之1

撰文:聯合早報
出版:更新:

僅相隔兩個月,中國初創公司DeepSeek(深度求索)再度發布廉價大模型,其性能可比肩美國OpenAI最新模型。

綜合英國科技周刊《自然》(Nature)和英國科技網站「生命科學」(Live Science)等報道,DeepSeek去年12月發布免費語言大模型DeepSeek V3,並稱在兩個月內花費558萬美元(約4,352萬港元)完成訓練該模型,所需時間和費用僅矽谷競爭對手的十分之一。

中國對沖基金幻方量化旗下的子公司DeepSeek星期一(1月20日)發布推理模型DeepSeek-R1,在第三方多個項目的基準測試中均超越美國OpenAI開發的最新模型o1。

據美國消費者新聞與商業頻道(CNBC)報道,美國微軟行政總裁納德拉(Satya Nadella)星期三(1月22日)在達沃斯世界經濟論壇上說,DeepSeek的新模型令人印象深刻,不僅因為他們有效地構建一個開源模型,還因為它的推理計算效率極高。「我們應該非常嚴肅地看待中國人工智能(AI)的發展」。

除測試表現優於o1外,R1的訓練成本和開源開放程度也勝於o1。《自然》周刊報道稱,開源開放指的是,讓用戶參與二次開發,可更改演算法。雖然可自由重複使用,但R1的開源開放程度仍受限,因為訓練數據尚未公開。

圖為微軟(Microsoft)行政總裁納德拉(Satya Nadella)2023年11月15日在美國三藩市出席亞太經合組織(APEC)行政總裁會議。(Reuters)

《每日經濟新聞》引述DeepSeek發布的技術報告稱,R1的訓練成本是o1的三十分之一。《自然》周刊報道稱,R1給用戶開出低廉的使用方案,是o1的三十分之一。

讓西方科技界讚歎的是,DeepSeek在受美國限制先進科技輸華的背景下,依然開發出新穎模型。

2023年2月3日,圖為人工智能企業OpenAI及其旗下軟件ChatGPT的標誌。(Reuters)

「生命科學」報道稱,美國限制向中企出口先進AI計算晶片,迫使R1研發者採用更智能和有效的演算法,以彌補演算能力的不足。ChatGPT據報需要一萬台英偉達(Nvidia)的圖像處理器處理訓練數據,DeepSeek工程師稱他們僅用2000台圖像處理器就取得相同結果。

本文獲《聯合早報》授權轉載。