阿里巴巴升級視頻生成AI模型 支持語音驅動

撰文:鄭文玥
出版:更新:

阿里巴巴(9988)發佈並開源全新的Wan2.2-S2V語音驅動生視頻(Speech-to-Video)模型。該創新工具專為數字人視頻創作而開發,可以人像圖片生成具備電影級品質的主體形象,並支持說話、唱歌與表演等動作。

公司將於本周五公佈業績,今日微升0.2%,報121.5元。

支持肖像、半身及全身等多種畫幅

公司指,該新模型是阿里巴巴Wan2.2視頻生成系列的一員,透過單張圖片及一段音頻,即可生成高質動畫視頻,支持肖像、半身以及全身等多種畫幅形式的視頻創作。

模型可依據文本指引動態生成人物動作與場景元素,還可透過語音音頻驅動生動的動畫形態,並支持多樣化的主體形象,包括卡通、動物以及風格化的形象。

為滿足專業內容創作者的多元需求,該技術靈活支持480P與720P的解像度輸出,用戶可在HuggingFace、GitHub以及阿里雲開源社區ModelScope下載Wan2.2-S2V。

阿里巴巴已於2月開源Wan2.1系列模型,並於7月開源Wan2.2系列模型。至今Wan系列模型在HuggingFace與ModelScope平台的總下載量已突破690萬次。