豆包Seedream 4.0圖像模型升級!一鍵換衣、場景重建 P圖超簡單

撰文:科技狐
出版:更新:

9月,字節跳動Seed團隊宣佈推出豆包圖像創作模型Seedream 4.0,並上線豆包App。該模型支持文生圖、圖像編輯及多圖參考等功能,相比前代模型Seedream 3.0和SeedEdit 3.0,多模態生圖效果、速度和可用性在專業評測中達到業界領先水平。

這一升級也讓豆包P圖實現了「玩法」升級,為用戶打開了多模態自由創作的大門。基於這一升級,網友們解鎖了不少有趣玩法,帶來了萬物皆可「邪修」的有趣體驗。

比如一鍵編輯與重繪功能可以一鍵搞定圖片編輯、局部替換,還是風格遷移、影像合成等需求。

我們不妨通過一個具體例子來體驗其效果。讓馬斯克(Elon Musk)開上小米SU7,在豆包對話頁面點擊「豆包P圖」,默認就是「豆包Seedream 4.0」。上傳圖片,輸入文字描述,等待近30秒,豆包就能直接生成基本符合描述的圖片。

雖然首次生成在細節上還有不足,比如馬斯克的頭還是會在前擋風玻璃外,這顯然有些不合邏輯。不過,簡單指令下,意思已經非常貼近。難怪Seedream 4.0內測一齣,網友們就把它玩出了花。當然,是不是真的萬物皆可「邪修」,我們也對核心功能進行了嘗試。

一鍵換衣

我們上傳了一張模特照和一套衣服(網圖),輸入提示詞:讓圖1女生穿上圖2的衣服。

從生成的結果上看,這次的模型能夠遵循提示詞要求,將參考穿搭替換到模特身上。整體效果自然,輪廓基本與參考圖一致。但是,服飾替換之後,細節仍待提升,想達到官方宣傳的替換效果,還需要經過多次嘗試和調整。

多圖輸入

為了驗證多圖融合能力,我們上傳了一貓一狗兩張寵物照片,並輸入提示詞:將圖1狗狗和圖2貓咪合進一張畫面。

模型整體可以理解提示詞的意思,但是豆包「P圖」的老毛病依然存在:太愛「自作主張」。給出指令之後,雖然做了融合,背景也還算協調,但改變了狗狗的顏色。

延伸閲讀:同AI講禮貌會令OpenAI年損5000萬美元?ChatGPT與Grok有不同說法(點擊連結看全文)

+16

分鏡設計

能融入也就能輸出,如果想給照片做一下分鏡,Seedream 4.0多圖輸出能力值得一試。我們上傳了一張帶走雙人的電影劇照,輸入提示詞:根據圖片,生成一組愛情片分鏡,比如散步、看電影等。

從結果上看,Seedream 4.0能夠在嚴格遵循人物外觀一致性的基礎上,設計出海邊漫步,看電影,咖啡館約會等浪漫場景。形象沒有漂移,和一般的生成模型還是有一定的區別,設計的故事化圖像可用性也比較高。

場景重建

在深度意圖理解方面,Seedream 4.0也展現出強大的場景重建能力。我們上傳了一張室內設計的線稿圖,輸入提示詞:將線稿圖改造成真實場景。

在深度意圖理解方面,Seedream 4.0也展現出強大的場景重建能力。我們上傳了一張室內設計的線稿圖,輸入提示詞:將線稿圖改造成真實場景。(科技狐提供)

從結果上看,這一模型實現了細節上的高度還原,從沙發、桌子、枱燈等主要傢俱,到畫框、綠植等小型裝飾,都能做到幾乎1:1的精準復刻。同時,空間構建較為合理、完整。這說明,Seedream 4.0在理解用戶意圖上有較大進步,生成結果的整體觀感與專業設計渲染效果較為接近。

精準指令編輯

在增刪改替常規玩法方面,Seedream 4.0有較大進步。我們上傳一張背景雜亂的旅行照,給出指令:刪除背景中的路人。

從生成結果上看,背景中雜亂的路人可以被刪除得較為乾淨,並且可以對背景進行自然填充,畫面銜接較為流暢,P圖痕跡基本可以忽略不計。

另外,如果想要執行更為複雜的任務,Seedream 4.0也能在保證面部特徵和氣質一致性的基礎上,順利完成指令。比如,我們上傳了一張人像圖,輸入指令:更換圖片人物髮型。

從結果上看,這一模型可以流暢轉換髮型,效果較為自然,可以避免因局部修改導致的整體失真。如果想要改變人物姿勢,只需要輸入更換不同姿勢的指令,Seedream 4.0就可以根據指令生成較為自然的姿勢和場景。比如我們上傳一張人物正面圖,輸入指令:改變圖片人物姿勢。

那麼,我們就會輕鬆獲得各種帶有場景的「寫真照」。從實測表現來看,這一特性對廣告設計、電商修圖、影視後期等場景尤為重要,大幅減少了人工二次修正的成本,不知道平面設計師們有沒有瑟瑟發抖?

多圖生成

相比單圖輸入,多圖參考能提供更豐富的訊息。Seedream 4.0最多可支持十餘張參考圖,同時抽取人物特徵、場景風格和物體結構,並進行有機融合。我們上傳了四張圖片,輸入指令:根據相關圖片,抽取人物特徵、場景風格和物體結構,並進行有機融合。

從結果上看,這一模型的對構圖的思考能力還不錯,它可以基於多張照片進行合理構圖,能夠比較好的理解用戶意圖,在合成過程中基本能保持尺度合理與物理結構的連貫性,展現出對現實世界的「常識理解」。

相關文章:Rokid Glasses AI智能眼鏡登場|對應廣東話革命AR實用智慧生活(點擊放大瀏覽)▼▼▼

+8

文字生成圖片

我們對這一生成能力也進行了測試,在對話框輸入指令:一個亞洲少數民族男孩,坐在草地上看書,身邊放着馬鞭,草地上有一匹馬在吃草,天空是清透的藍天白雲,構圖為3:2橫圖,風格為寫實攝影。

我們對Seedream 4.0的文字生成圖片也進行了測試,在對話框輸入指令:一個亞洲少數民族男孩,坐在草地上看書,身邊放着馬鞭,草地上有一匹馬在吃草,天空是清透的藍天白雲,構圖為3:2橫圖,風格為寫實攝影。(科技狐提供)

從生成結果上看,Seedream 4.0可以輕鬆理解文字意圖,並根據理解生成較為美觀的實拍風格圖片。直接文字描述就能生成圖片的方式,不知道能不能滿足「善變」的甲方呢?

修復老照片

如果想修復一下老照片,Seedream 4.0也能承擔起修復師的工作。我們上傳了一張破損嚴重的舊照,並要求這倆模型進行自動修復。輸入指令:修復這張老照片,並將色彩變成彩色。

如果想修復一下老照片,Seedream 4.0也能承擔起修復師的工作。(科技狐提供)

從結果上看,這一模型的處理結果能夠達到可用水準,照片中的瑕疵基本可以去掉,人物面部輪廓與背景紋理表現得比較鋭利,照片清晰度恢復的較高。總體來說,在保持原有影像風格的前提下,將照片恢復到了較為完整、清晰的狀態。

結語

在圖像創作方面,豆包有了Seedream 4.0之後,其已從單一的文生圖進入多模態交互的新階段。不管是理解能力還是對複雜任務的處理方面,都有了較大提升。換句話來說,Seedream 4.0在一定程度上打破了單點能力侷限,開始具備通用多模態創意引擎的雛形。不過,在一些任務處理上,Seedream 4.0在理解用戶意圖上,仍然需要進化。

總體來說,即便是不具備PS軟件使用能力的普通人,也可以在豆包這兒進行圖片處理。簡單的電商圖片、文案處理,甲方的簡單需求,也可以得以解決。而要達到專業設計師的水平,我們還需要關注Seedream 4.0的進一步進化。

【本文獲「科技狐」授權轉載,微信公眾號:kejihutv】