這款多風格開源AI圖像生成功能在小紅書爆紅　Github也登上熱搜榜

只需一張照片，整個過程無需訓練 LoRA 模型，多風格 AI 寫真即刻呈現！

最近，有一群來自小紅書的 95 後神秘團隊，自稱 InstantX，搞了個大動作 —— 開源「InstantID」項目。

InstantID 憑藉着高質量的圖像生成能力，在開源界掀起了一股熱潮：不僅獲得了眾多技術大佬的點贊，更是在 GitHub 熱榜上迅速飆升，成為焦點。

這個「出片神器」，讓用戶只需上傳一張照片，就能輕鬆定製出多種風格的 AI 寫真。

（機器之心提供）

對，你沒看錯。如圖左側所示，與之前爆火的妙鴨相機至少需要上傳 20 張照片不同的是，InstantID 只需一張自拍，不依賴模型訓練，不需要等待，瞬間變身。

無論是古典油畫的優雅，炫酷的賽博朋克，或是 3D 雕像的立體感，只要是你喜歡的風格，InstantID 都能輕鬆駕馭。

它不僅風格多樣，還能在保持人物面部高保真的同時，無需模型訓練，實現秒級出圖，效率大幅提升。

InstantID 目前位列 Hugging Face Space Trending 榜首，許多小夥伴玩得不亦樂乎～

比如，把馬斯克送上了火星。

（機器之心提供）

讓蒙娜麗莎拍「櫻花寫真」，微笑依舊很神秘。

（機器之心提供）

甚至可以讓語文課本中的杜甫從二維變三維，穿越到現代變身「帥大叔」。

（機器之心提供）

圖靈獎得主 Yann LeCun，化身多種動漫人物，你猜出了幾個角色？

就連 Yann LeCun 本人也點贊轉發，調侃自己的「鋼鐵俠」衣服在哪裏。

（機器之心提供）

在個性化圖像合成領域，實現強烈風格化寫真的同時保持面部高保真度，一直是個挑戰。

從效果上看，InstantID 做到了。那它背後運用了哪些方法，有什麼獨到之處嗎？

（機器之心提供）

回顧過去，儘管 Textual Inversion、 DreamBooth 和 LoRAs 等技術已經取得了重大進展。但它們在實際應用中仍受限於高存儲需求、耗時的微調過程以及對多張參考圖像的依賴。相比之下，現有基於 ID 嵌入的方法雖然只需一次前向推理，但也面臨不小挑戰：要麼需要對大量模型參數進行廣泛的微調，要麼與社區預訓練模型不兼容，要麼無法保持高真實性。

InstantID 的出現，打破了這些侷限。小紅書 InstantX 團隊公開了論文《 InstantID: Zero-shot Identity-Preserving Generation in Seconds 》和推理代碼，他們表示：InstantID 巧妙地避免了對文生圖模型 UNet 部分的訓練，僅通過訓練一個輕量級的可插拔模塊，實現了在推理過程中無需 test-time tuning，同時保持了文本控制的靈活性，確保了面部特徵的高保真度。

（機器之心提供）

如圖所示，InstantID 的工作原理可分為三個關鍵部分：

ID Embedding：團隊利用預訓練的面部識別模型代替 CLIP 來提取語義人臉特徵，並使用可訓練的投影層，將這些特徵映射到文本特徵空間，形成 Face Embedding，具有豐富的語義訊息，包括如面部特徵、表情、年齡等，為後續的圖像生成提供了堅實的基礎。

Image Adapter：引入一個輕量級的適配模塊，將提取的身份訊息與文本提示結合起來。這個模塊通過解耦的交叉注意力機制，使得圖像和文本能夠獨立地影響生成過程，從而在保持身份訊息的同時，允許用戶對圖像風格進行精細控制，實現「雙贏」。

IdentityNet：小紅書提出了一個名為 IdentityNet 的網絡，是 InstantID 的核心部分。它通過強語義條件（如面部特徵的詳細描述）和弱空間條件（如面部關鍵點的位置）來編碼參考面部圖像的複雜特徵。在 IdentityNet 中，生成過程完全由 Face Embedding 引導，無需任何文本訊息。僅更新新添加的模塊，而預先訓練的文本到圖像模型保持凍結以確保靈活性。

在實際的圖像生成過程中，InstantID 首先會接收到用戶的文本提示和麪部圖像。然後通過 ID Embedding 提取關鍵訊息，接着 Image Adapter 將這些訊息與文本提示融合。IdentityNet 會根據這些融合後的訊息生成圖像。

整個過程是自動化的，用戶不需要進行任何額外的微調或訓練，只需等待二十幾秒，就能得到一個既符合文本描述又保留個人身份特徵的定製圖像。

（機器之心提供）

InstantID 不僅解決了訓練效率與身份保真度之間的平衡問題，還提供了一系列令人印象深刻的特性。

首先，InstantID 的即插即用和兼容性是其最大的賣點之一。它無需對 UNet 進行額外訓練，即可與現有的預訓練模型無縫集成，如社區內的文生圖基礎模型、LoRAs 和 ControlNets。這意味着用戶可以在不增加成本的情況下，輕鬆地在推理過程中保持人物的身份特徵，裂變性強。

（機器之心提供）

其次，InstantID 的無需微調特性，使得它在實際應用中極具經濟性和實用性。用戶只需進行一次前向傳播，即可快速生成圖像，同時保持對文本編輯的強大控制力，讓身份訊息與各種風格完美融合。如下圖所示，其編輯性強的特點讓用戶能夠通過文本控制性別、頭髮、服裝等細節，確保生成圖像的多樣性。

（機器之心提供）

性能方面的表現同樣卓越，它能夠僅憑一張參考圖像，就生成具有高保真度和靈活性的先進結果。這一性能不僅超越了基於單張圖片特徵的嵌入方法，如 IP-Adapter-FaceID，而且在特定場景下，其效果與 ROOP、LoRAs 等方法不相上下。

（機器之心提供）

對於相似度有更高要求的真人寫真場景，InstantID 也能完成得不錯。不僅能夠在秒級時間內完成高質量的圖像生成，還避免耗時的 LoRa 訓練，相比妙鴨成本更低，大約是其 1/300。通過精細化控制臉部區域，InstantID 能夠增強臉部相似度，同時保持整體風格的和諧。

（機器之心提供）

此外，InstantID 的分區域生成方案支持多人多風格的圖像生成，耗時基本無增。

（機器之心提供）

它的魯棒性和泛化性，使其能順利處理誇張的五官比例。

（機器之心提供）

多視角的生成也沒問題。按你指定的姿勢圖和麪部特徵，生成新的 AI 寫真。

（機器之心提供）

InstantID 的可擴展性良好，能夠快速支持多種衍生功能。

比如快速換臉。與 Inswapper 相比，InstantID 生成的作品在面孔和背景的融合上更加靈活。

ID 訊息插值。InstantID 支持兩臉自定義融合，保留雙方特徵。

（機器之心提供）

非人像與 ID 的結合，很有特點。

（機器之心提供）

聊到這兒，不妨你親自嘗試一下，感受它的魅力。

操作方式非常簡單，進入 InstantID 的 Demo 頁面，直接上傳照片，便可免費體驗：

https://huggingface.co/spaces/InstantX/InstantID

InstantID 的這些優勢，不僅為個人用戶提供了強大的創作工具，也為商業應用如電子商務、廣告和娛樂產業開闢了新的可能性。InstantID 本次表現令人驚喜，其高效、靈活、強大的性能和易用性，印象深刻。期待小紅書該開源項目的後續進展，未來能在多個領域發揮出更大的價值。

附錄：
論文地址：https://arxiv.org/abs/2401.07519
InstantID 主頁：https://instantid.github.io/
Demo 嚐鮮：https://huggingface.co/spaces/InstantX/InstantID

延伸閱讀：宮崎駿發布龍年賀卡腳踏彩色祥雲　網民：看起來不太聰明的樣子

Windows XP是微軟歷史上一個重要轉折點　經典開機畫面印象最深 Apple Vision Pro大爆紅！《阿森一族》預言再現：戴VR裝置逛大街 3千元以下國產手機有何選擇？這4款性價比出眾還能打機值得考慮濕冷天氣想開抽濕機但怕電費暴增？　專家教你這招：省電又效率高蘋果對遊戲串流應用程序政策作調整　XGP有望重回App Store？這家廠取下AI Pin代工大單　為何OpenAI、微軟等大公司都投資？

【本文轉自「機器之能」，微信公眾號：almosthuman2017】

這款多風格開源AI圖像生成功能在小紅書爆紅 Github也登上熱搜榜

這款多風格開源AI圖像生成功能在小紅書爆紅　Github也登上熱搜榜