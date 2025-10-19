正如前幾天網上泄露與傳聞所預料的那樣，深夜，Google發佈了最新的AI視頻生成模型Veo 3.1。



Veo 3.1帶來了更豐富的音頻、敘事控制，以及更逼真的質感還原。在Veo 3的基礎上，Veo 3.1進一步提升了提示詞遵循度，並在以圖生視頻時提供更高的視聽質量。

隨着新模型的發佈，由其驅動的AI電影創作工具Flow也迎來了更新，可以幫助你更精細地編輯視頻片段，對最終場景實現更顆粒化的控制。並且，谷歌首次將音頻引入到現有能力中，例如「素材生成視頻（Ingredients to Video）」「連幀成片（Frames to Video）」以及「延展（Extend）」。

更強的敘事與音頻控制

Veo 3.1在其前代版本Veo 3（於2025年5月發佈）的基礎上進行了升級，增強了對對話、環境音效以及其他音頻效果的支持。

如今，在Flow的多個核心功能中，包括連幀成片、素材生成視頻和延展，均已支持原生音頻生成。這些功能允許用戶：

1. 將靜態圖像轉換為視頻；

2. 將多張圖像中的人物、物體或元素整合進同一視頻中；

3. 生成比原始8秒更長的視頻片段，可延展至30秒甚至1分鐘以上，並從上一段的最後一幀自然銜接延續。



在此之前，用戶必須在使用這些功能後手動添加音頻。

如今，原生音頻的引入讓用戶能更好地掌控視頻的情緒、節奏與敘事基調，這些以往只能通過後期製作實現的能力，現在可以直接在生成階段完成。

在企業場景中，這種更高層次的控制有望減少獨立音頻製作流程的需求，提供一種音畫同步的集成式創作方式，便於製作培訓內容、營銷視頻或數字體驗作品。

更豐富的輸入與編輯能力

藉助Veo 3.1，谷歌引入了對多種輸入類型的支持，並提供了對生成結果更精細的控制。該模型可接受文本提示、圖像以及視頻片段作為輸入，並進一步支持：

1. 參考圖像（最多三張），用於引導最終輸出畫面中的外觀與風格；

2. 首幀與末幀插值，可在固定的起止畫面之間生成平滑銜接的過渡場景；

3. 場景延展，可讓視頻的動作或運動超出原本時長繼續發展。



此外，谷歌還引入瞭如插入（Insert）（向場景中添加物體）和移除（Remove）（刪除元素或角色）等新功能，但並非所有功能目前都能通過Gemini API即時使用。

多平台部署

Veo 3.1可通過谷歌旗下多項現有AI服務訪問：

1. Flow：谷歌自家的AI輔助電影創作平台；

2. Gemini API：面向希望在應用中集成視頻生成功能的開發者；

3. Vertex AI：企業級集成平台，後續將支持Veo的「場景延展」等核心功能。



價格與訪問方式

Veo 3.1模型目前處於預覽階段，僅在Gemini API的付費層級中可用。其收費結構與上一代AI視頻模型Veo 3保持一致：

1. 標準模型（Standard model）：每秒視頻0.40美元

2. 快速模型（Fast model）：每秒視頻0.15美元



目前尚無免費層級，且僅在視頻成功生成後才會計費。這種計費方式與此前的Veo系列保持一致，為注重成本管理的企業團隊提供了可預測的預算模式。

技術規格與輸出控制

Veo 3.1支持輸出720p或1080p分辨率的視頻，幀率為24幀/秒（fps）。

1. 在使用文本提示或上傳圖像生成視頻時，時長可選4秒、6秒或8秒；

2. 若使用Extend功能，視頻最長可擴展至148秒（超過兩分半）。



新功能還帶來了對主體與環境的更精確控制。

例如，企業用戶可以上傳一張產品圖片或視覺參考，Veo 3.1將在整個視頻中生成保持其外觀特徵與風格一致性的場景。

這一能力有助於簡化創意生產流程，特別適用於零售、廣告以及虛擬內容製作等需要品牌一致性和視覺延續性的團隊。

