Google Veo 3.1發布!AI影音同步、最長148秒 1功能創作者最愛
正如前幾天網上泄露與傳聞所預料的那樣,Google發佈了最新的AI視頻生成模型Veo 3.1。
Veo 3.1帶來了更豐富的音頻、敘事控制,以及更逼真的質感還原。在Veo 3的基礎上,Veo 3.1進一步提升了提示詞遵循度,並在以圖生視頻時提供更高的視聽質量。
隨着新模型的發佈,由其驅動的AI電影創作工具Flow也迎來了更新,可以幫助你更精細地編輯視頻片段,對最終場景實現更顆粒化的控制。並且,谷歌首次將音頻引入到現有能力中,例如「素材生成視頻(Ingredients to Video)」「連幀成片(Frames to Video)」以及「延展(Extend)」。
更強的敘事與音頻控制
Veo 3.1在其前代版本Veo 3(於2025年5月發佈)的基礎上進行了升級,增強了對對話、環境音效以及其他音頻效果的支持。
如今,在Flow的多個核心功能中,包括連幀成片、素材生成視頻和延展,均已支持原生音頻生成。這些功能允許用戶:
1. 將靜態圖像轉換為視頻;
2. 將多張圖像中的人物、物體或元素整合進同一視頻中;
3. 生成比原始8秒更長的視頻片段,可延展至30秒甚至1分鐘以上,並從上一段的最後一幀自然銜接延續。
在此之前,用戶必須在使用這些功能後手動添加音頻。
如今,原生音頻的引入讓用戶能更好地掌控視頻的情緒、節奏與敘事基調,這些以往只能通過後期製作實現的能力,現在可以直接在生成階段完成。
在企業場景中,這種更高層次的控制有望減少獨立音頻製作流程的需求,提供一種音畫同步的集成式創作方式,便於製作培訓內容、營銷視頻或數字體驗作品。
更豐富的輸入與編輯能力
藉助Veo 3.1,谷歌引入了對多種輸入類型的支持,並提供了對生成結果更精細的控制。該模型可接受文本提示、圖像以及視頻片段作為輸入,並進一步支持:
1. 參考圖像(最多三張),用於引導最終輸出畫面中的外觀與風格;
2. 首幀與末幀插值,可在固定的起止畫面之間生成平滑銜接的過渡場景;
3. 場景延展,可讓視頻的動作或運動超出原本時長繼續發展。
此外,谷歌還引入瞭如插入(Insert)(向場景中添加物體)和移除(Remove)(刪除元素或角色)等新功能,但並非所有功能目前都能通過Gemini API即時使用。
多平台部署
Veo 3.1可通過谷歌旗下多項現有AI服務訪問:
1. Flow:谷歌自家的AI輔助電影創作平台;
2. Gemini API:面向希望在應用中集成視頻生成功能的開發者;
3. Vertex AI:企業級集成平台,後續將支持Veo的「場景延展」等核心功能。
價格與訪問方式
Veo 3.1模型目前處於預覽階段,僅在Gemini API的付費層級中可用。其收費結構與上一代AI視頻模型Veo 3保持一致:
1. 標準模型(Standard model):每秒視頻0.40美元
2. 快速模型(Fast model):每秒視頻0.15美元
目前尚無免費層級,且僅在視頻成功生成後才會計費。這種計費方式與此前的Veo系列保持一致,為注重成本管理的企業團隊提供了可預測的預算模式。
技術規格與輸出控制
Veo 3.1支持輸出720p或1080p分辨率的視頻,幀率為24幀/秒(fps)。
1. 在使用文本提示或上傳圖像生成視頻時,時長可選4秒、6秒或8秒;
2. 若使用Extend功能,視頻最長可擴展至148秒(超過兩分半)。
新功能還帶來了對主體與環境的更精確控制。
例如,企業用戶可以上傳一張產品圖片或視覺參考,Veo 3.1將在整個視頻中生成保持其外觀特徵與風格一致性的場景。
這一能力有助於簡化創意生產流程,特別適用於零售、廣告以及虛擬內容製作等需要品牌一致性和視覺延續性的團隊。
延伸閲讀:Grok 4來襲 性能壓倒Google、OpenAI?唯高月租及火爆言論成焦點(點擊連結看全文)
【本文轉自「機器之心」,微信公眾號:almosthuman2014】