DeepSeek發布文字生成圖片模型Janus-Pro 測試優於OpenAI|有圖

撰文:朱加樟
出版:更新:

國產大模型DeepSeek轟動全球,造成美國股市震盪,科技公司英偉達(Nvidia,又譯輝達)股價在美國當地時間27日單日暴跌近17%,市值損失創紀錄的5,890億美元。

28日凌晨,DeepSeek在GitHub平台發佈了Janus-Pro多模態大模型,進軍文字生成圖片領域。根據其發布的測試結果,Janus-Pro在使用文本提示的圖像生成排行榜中擊敗了Stability AI的Stable Diffusion和OpenAI的DALL-E 3。

Janus-Pro圖像生成的案例。
Janus-Pro圖像生成的案例。

DeepSeek方面表示,該款大模型是2024年11月13日發佈的JanusFlow大模型的高級版本。相比前一代模型,Janus-Pro優化了訓練策略、擴展了訓練數據,模型也更大。通過這些改進,Janus-Pro 在多模態理解和文本到圖像的指令跟蹤功能方面都取得了重大進步,同時還增強了文本到圖像生成的穩定性。

根據DeepSeek發佈的測試結果,Janus-Pro在GenEval和DPG-Bench基準測試中擊敗了 Stable Diffusion和OpenAI的DALL-E 3。目前,Janus系列的4款模型已經開源。

可識別圖片認出西湖

作為一個多模態模型,Janus-Pro不僅可以文生圖,同樣也能對圖片進行描述,識別地標景點(例如杭州的西湖),識別圖像中的文字,並能對圖片中的知識(例如下圖中的Tom and Jerry蛋糕)進行介紹。

Janus-Pro能對圖片進行描述,識別地標景點(例如杭州的西湖)。
Janus-Pro能對圖片中的知識(例如Tom and Jerry蛋糕)進行介紹。
今年1月20日,國務院總理李強主持召開專家、企業家和教科文衛體等領域代表座談會,聽取對《政府工作報告(徵求意見稿)》的意見建議,DeepSeek創辦人梁文鋒在會上發言。