AI豆包圖像編輯模型3.0登場 8倍加速超越GPT-4o 文字風格隨意換

撰文:機器之心
出版:更新:

最近,一個長相酷似韓國影星河正宇的博主,在TikTok上發視頻吐槽:「老婆總是喜歡亂P我睡覺的照片,點算?」本以為是撒狗糧,沒想到還真撞上了P圖界的邪修大神。她總能把千奇百怪的睡姿,恰到好處地融進各種場景,腦洞大得能隨機笑死一個路人。這看似沙雕的P圖背後,其實揭示出了一個趨勢:圖像編輯的需求正變得越來越個性化,也對工具的智能化程度提出了更高的要求。

就在最近,火山引擎整個大活,發布了豆包圖像編輯模型SeedEdit 3.0,並上線火山方舟。

體驗地址:https://console.volcengine.com/auth/login/

作為豆包家族的重要成員,圖像編輯模型3.0主打一個「全能且可控」。

具體來說,它有三大優勢:更強的指令遵循、更強的主體保持、更強的生成質量,特別是在人像編輯、背景更改、視角與光線轉換等場景中,表現更為突出,還在多項關鍵編輯指標之間取得了極佳平衡。

豆包圖像編輯模型SeedEdit 3.0與其他的圖像編輯模型對比(機器之心提供)

舉個例子。它能一鍵更換雜誌封面文字,同時保持其他元素不變;或者隨意調整打光、畫面氛圍;甚至一句模糊指令就能讓電商產品海報替換背景。

點擊圖輯查看效果👇👇👇

接下來,我們就實測一把,看看升級後的圖像編輯模型3.0到底有多硬核。

一手實測,AI修圖,看不出「科技與狠活」

AI圖像編輯模型的出現,讓許多手殘黨都成了P圖達人,不過問題也隨之而來:用嘴P圖固然方便,但這些AI往往會出現「誤傷」。比如你只想改個背景,結果人物的面部和姿勢卻變了;你明明下達了精準的指令,它們卻偏偏聽不懂「人話」,對着原圖一頓亂改;好不容易搞對了主體和背景,畫面又醜得別具一格。

現在好了,豆包圖像編輯模型3.0已經解決這些「通病」,只需一句簡單的提示詞,就能針對畫面元素增、刪、改、替。打字P圖,指哪改哪日常生活中,大概每個人都會遇到這些抓狂的瞬間:出門旅遊拍照,忍着羞恥心凹好造型,卻半路殺出個路人甲亂入鏡頭;想用明星美照當壁紙,但正中間打着又大又醜的水印,裁剪都無從下手。

這時,AI消除功能就派上用場。比如在泰勒・艾莉森(泰萊・斯威特, Taylor Swift)的街拍場景中,豆包圖像編輯模型3.0可以精準鎖定黃衣女生和水印,完成雙重清除,同時還不傷及主體人物和背景細節。它還能同時處理消除路人、雨傘變色兩項複雜任務。路人消失後背景自然補全,毫無PS痕跡;雨傘變色也嚴格鎖定目標物體,未波及人物服飾或環境。

如果感覺畫面平平無奇,想增加點元素提升視覺衝擊,同樣只需一句指令,就能讓安妮夏菲維(安・海瑟薇, Anne Hathaway)體驗一把「房子着火我拍照」的刺激。

提示詞:後面的房子着火了。(機器之心提供)

再來試試AI替換功能。什麼換文字、換背景、換動作、換表情、換風格、換材質……豆包圖像編輯模型3.0通通可以搞定。

比如,把汽水瓶上的文字「夏日勁爽」改為「清涼一夏」,它不僅沿用原有字體設計,還保留了所有的背景元素。再比如,把美斯和C朗自拍照的背景,從上海外灘瞬移至悉尼歌劇院,看來以後只要動動嘴就能打卡全球各大熱門景點了。或者將人物動作替換為「懷抱小狗」,畫面沒有出現穿幫或者比例失調的情況。

此外,豆包圖像編輯模型3.0還能轉換風格,比如水彩風格、吉卜力風格、插畫風格、3D風格等。

圖1為原圖;圖2為水彩風格;圖3為吉卜力風格;圖4為新海誠風格。(機器之心提供)

在完整保留海邊靜物原始構圖的基礎上,該模型精準重構黃昏暖色調光影,使藍白格子桌布、玫瑰花與海面均自然鍍上落日餘暉。

給黑白照片上色時,我們還可以自定義風格,比如輸入「日系風格」,直出膠片感大片,氛圍感拉滿。

我們還可以製作商業產品海報,比如讓它根據物品的屬性替換為適合的背景,並在海報上添加字體。這下電商老闆們該狂喜了,畢竟一年也能省不少設計成本。

或者把服裝和建築設計的線稿轉成寫實風格。

+1

一番體驗下來,我們也摸到了提示詞撰寫的門道:

1. 每次編輯使用單指令會更好;
2. 儘量使用清晰、分辨率高的底圖;
3. 局部編輯時指令描述儘量精準,尤其是畫面有多個實體的時候,描述清楚對誰做什麼,能獲取更精準的編輯效果;
4. 發現編輯效果不明顯的時候,可以調整一下編輯強度scale,數值越大越貼近指令執行。

與GPT-4o、Gemini 2.5 Pro掰掰手腕

Round 1:文字修改

在針對商業海報文字編輯任務的測試中,通用大模型暴露出了文字生成短板。

GPT-4o將畫面中的文字替換為無法辨認的亂碼,Gemini 2.5 Pro則未嚴格遵循替換指令,而是在原海報文字的下方進行了文字添加。

只有豆包圖像編輯模型3.0精準完成「店家推薦」文字替換,還保留了原字體材質與背景元素,也沒有出現「鬼畫符」等缺陷。

圖1:原圖;圖2:豆包圖像編輯模型3.0;圖3:GPT-4o;圖4:Gemini 2.5 pro;提示詞:把文字「金絲酥單品」改成「店家推薦」,其他元素不變。(機器之心提供)

Round 2:風格轉換

我們讓這三款大模型把寫實人物攝影照片轉成塗鴉插畫風格,豆包圖像編輯模型3.0嚴格遵循雙重約束指令,生成的畫面審美也在線。

相比之下,GPT-4o和Gemini 2.5 Pro改出來的圖看起來更像隨意畫的兒童塗鴉,女孩的五官有些模糊走樣,背景的細節也丟失不少。

圖1:原圖;圖2:豆包圖像編輯模型3.0;圖3:GPT-4o;圖4:Gemini 2.5 pro;提示詞:保持背景結構,保持人物特徵,風格改成塗鴉插畫風格。(機器之心提供)

Round 3:物體、文字消除

再來對比下AI消除功能。

原圖元素較多,路人、店招,還有一行淺淺的水印,豆包圖像編輯模型3.0成功消除畫面中所有路人及文字,包含店鋪招牌,同時精準修復背景空缺區域。

而GPT-4o和Gemini 2.5 Pro的消除功能總是「丟三落四」,GPT-4o忘記刪除店鋪招牌,Gemini 2.5 Pro則只P掉了水印,其他指令要求一概忽視。

圖1:原圖;圖2:豆包圖像編輯模型3.0;圖3:GPT-4o;圖4:Gemini 2.5 Pro;提示詞:保留滑板男孩,刪除畫面中所有路人,並刪除所有文字,其他元素不變。(機器之心提供)

整體而言,相較於GPT-4o和Gemini 2.5 Pro,豆包圖像編輯模型3.0理解指令更到位,改圖效果更精準自然,尤其是「文字生成」功能,幾乎不用抽卡,完全可以達到商用的程度。

技術揭秘:從模型架構到推理加速,全方位進化

煉成這樣一個超級實用、易用且好玩的P圖神器,豆包圖像編輯模型3.0(以下統稱SeedEdit 3.0)依託的是一整套技術秘籍。

作為AIGC領域的重要分支,可編輯的圖像生成要解決結構與語義一致性、多模態控制、局部區域精細編輯、前景背景分離、融合與重建不自然、細節丟失與偽影等一系列技術難題。

基於豆包文生圖模型Seedream 3.0,SeedEdit 3.0很好地解決了上述難題,在圖像主體、背景和細節保持能力上進一步提升。在內部真實圖像測試基準測試中,SeedEdit3.0更勝其他模型一籌。

定量比較結果如下所示,其中左圖利用CLIP圖像相似度評估模型編輯保持效果,SeedEdit 3.0領先於前代1.0、1.5、1.6以及其他SOTA模型Gemini 2.0、Step1X和GPT-4o,僅在指令遵循方面不如GPT-4o;右圖顯示SeedEdit 3.0在人臉保持方面具有明顯優勢。

真實圖像測試基準測試的定量比較結果。(機器之心提供)

下圖為部分定性比較結果,直觀來看,SeedEdit 3.0在動作自然度、構圖合理性、人物表情與姿態還原性、視覺一致性、清晰度與細節保留等多個維度上表現更好。

部分定性比較結果(機器之心提供)

為了達成這樣的效果,SeedEdit 3.0團隊從數據、模型和推理優化三個層面進行了深度優化與創新。

首先是數據層面,一方面引入多樣化的數據源,包括合成數據集、編輯專家數據、傳統人工編輯操作數據以及視頻幀和多鏡頭數據,並包含了任務標籤、優化後的描述和元編輯標記訊息(下圖)。而基於這些數據,模型在真實數據與合成的「輸入-輸出編輯空間」中進行交錯學習,既不損失各種編輯任務的訊息,又提升對真實圖像的編輯效果。

引入多樣化的數據源,包括合成數據集、編輯專家數據、傳統人工編輯操作數據以及視頻幀和多鏡頭數據,並包含了任務標籤、優化後的描述和元編輯標記訊息。(機器之心提供)

另一方面,為了有效地融合不同來源的圖像編輯數據,團隊採用了一種多粒度標籤策略。對於差別比較大的數據,通過統一任務標籤區分;對於差別較小的數據,通過加入特殊Caption區分。接下來,所有數據在重新標註、過濾和對齊之後進行正反向的編輯操作訓練,實現全面梳理和整體平衡。

可以說,更豐富的數據源以及更高效的數據融合,為SeedEdit 3.0處理複雜圖像編輯任務提供了強大的適應性和魯棒性。

其次是模型層面,SeedEdit 3.0沿用了SeedEdit的架構,底部視覺理解模型從圖像中推斷出高層次語義訊息,頂部因果擴散網絡充當圖像編碼器來捕捉細粒度細節。此外,視覺理解與擴散模型之間引入了一個連接模塊,將前者的編輯意圖(比如任務類型和編輯標籤等)與後者對齊。

在此基礎上,團隊將文生圖模型Seedream 2.0中的擴散網絡升級為Seedream 3.0,無需進行任何細化便可以原生生成1K至2K分辨率圖像,並增強了人臉與物體特徵等輸入圖像細節的保留效果。得益於此,模型在雙語文本理解與渲染方面的能力也得到了增強,並可以輕鬆擴展到多模態圖像生成任務。

SeedEdit 3.0模型架構概覽。(機器之心提供)

而為了訓練出現有架構,團隊採用了多階段訓練策略,包括預訓練和微調階段。其中,預訓練階段主要對所有收集的圖像對數據進行融合,通過圖像多長寬比訓練、多分辨率批次訓練,使模型從低分辨率逐步過渡到高分辨率。

微調階段則主要優化輸出結果以穩定編輯性能,過程中重新採樣大量精調數據並從中選出高質量、高分辨率樣本;然後結合模型過濾器和人工審核對這些樣本二篩,兼顧高質量數據和豐富編輯類別;接下來利用擴散損失對模型進一步微調,尤其針對人臉身份、美感等對用戶價值極高的屬性,引入特定獎勵模型作為額外損失,提升高價值能力表現;最後對編輯任務與文本到圖像任務聯合訓練,既提升高分辨率圖像編輯效果,又增強泛化性能。

為了實現更快的推理加速,SeedEdit 3.0採用了多種技術手段,包括蒸餾、無分類器蒸餾、統一噪聲參照、自適應時間步採樣、少步高保真採樣和量化。一整套的方案,讓SeedEdit 3.0大幅縮短了從輸入到輸出的時間,並減少計算資源的消耗,節省更多內存。

最終,在蒸餾與量化手段的多重加持下,SeedEdit 3.0實現了8倍的推理加速,總運行時長可以從大約64秒降至8秒。這樣一來,用戶等待的時間大大降低。

想要了解更多技術與實驗細節的小夥伴,請參閲SeedEdit 3.0技術報告。

SeedEdit 3.0技術報告(機器之心提供)

技術報告地址:https://arxiv.org/pdf/2506.05083

寫在最後

也許AI圈的人已經注意到了,最近一段時間,包括圖像、視頻在內AIGC創作領域的關注度有所回落,尤其相較於推理模型、Agent等熱點略顯安靜。然而,這些賽道的技術突破與產品演進並沒有停滯。

在國外,以Midjourney、Black Forest Labs為代表的AI生圖玩家、以Runway、Google DeepMind為代表的AI視頻玩家,繼續模型的更新迭代,推動圖像與視頻生成技術的邊界,提升真實感與創意性。而在中國,以字節跳動、阿里巴巴、騰訊為代表的頭部廠商在圖像、視頻生成領域依然高度活躍,更新節奏也很快,從技術突破與應用拓展兩個方向發力。

這些頭部廠商推出的大模型產品還通過多樣化的平台和形態廣泛觸達用戶,比如App、小程序等,為創作者提供了便捷的內容創作工具。這種「模型即產品」的能力既提升了易用性,也激發了用戶的參與感與創造力。

就拿此次的豆包圖像編輯模型3.0來說,它在中國首次做到了產品化,無需像傳統圖像編輯軟件一樣描邊塗抹、修修補補,輸入簡單的自然語言指令就能變着花樣P圖。我們在實際體驗中已經感受到了它的魔力,換背景、轉風格以及各種元素的增刪與替換,幾乎無所不能。

該模型的出現無疑會帶來圖像創作領域的一次重大轉型,跳出傳統圖像編輯的桎梏,邁入到自動化、智能化、創意化的階段。這意味着,沒有專業化技能的C端普通用戶得到了一個強大的圖像二創工具,在大幅提升創作效率的同時還能解鎖更多創意空間。

當然,豆包圖像編輯模型3.0的應用潛力不侷限於日常的修圖需求,隨着更加深入地挖掘廣泛的行業特定需求,未來它也有望在影視創作、廣告設計、媒體、電商、遊戲等AIGC相關的B端市場激發新的應用潛力,助力企業提高內容生產效率,在競爭中用AI搶佔先機。

利用該模型,影視製作團隊可以快速調整鏡頭畫面、添加特效、替換背景等,從而簡化製作流程、縮短製作周期;電商商家可以快速定製化產品圖像和宣傳圖,並根據消費者偏好和市場需求進行個性化創作;遊戲開發者可以快速調整角色、場景的設計元素,節省時間。這些看得見的應用前景,顯然會帶來顛覆性的變化,推動行業朝着高效、便捷的方向演進。

【本文轉自「機器之心」,微信公眾號:almosthuman2014】