阿里巴巴正式發佈並開源全新 Wan2.2-S2V 語音驅動生成影片(Speech-to-Video)模型。這款創新工具專為創作數碼人像影片而設,用戶只需提供一張人像相片及一段音訊,即可生成具備電影級品質的動畫影片,支援說話、唱歌與表演等多種動作。
電影級品質支援多種畫幅
Wan2.2-S2V 屬於阿里巴巴 Wan2.2 影片生成系列成員,提供靈活多樣的人物動畫能力,支援肖像、半身以及全身等多種畫幅形式的影片創作。模型可依據文本指引動態生成人物動作與場景元素,協助專業內容創作者捕捉精準視覺表現,滿足特定敘事與設計需求。
該模型運用先進語音驅動動畫技術,呈現栩栩如生的人物動態,從自然對話到音樂演奏均能流暢展現,並可於同一場景中無縫處理多個角色。創作者還可透過語音音訊驅動生動動畫形態,支援多樣化主體形象,包括卡通、動物以及風格化形象。
為滿足專業內容創作者的多元需求,該技術靈活支援 480P 與 720P 解像度輸出,確保生成的高質素畫面符合多樣化專業與創意標準,既適用於社交媒體內容,也適合專業展示。
阿里巴巴達摩院視覺智能實驗室表示,開源 Wan2.2-S2V 除技術突破外,更體現阿里巴巴對全球創作者社群支持。團隊認為語音驅動視頻生成將成為生成式 AI 發展的重要方向,有潛力推動數碼人像技術在教育培訓、虛擬客服、直播娛樂及國際電影製作等場景使用。他們強調開源能促進行業技術共享,加速 AI 生態繁榮,最終令創作者與企業用戶直接受惠。
技術突破降低算力消耗
Wan2.2-S2V 超越傳統數碼人說話動畫,結合文本引導的全域運動控制與音訊驅動的細微局部運動,讓角色在多樣化和具挑戰場景中,依然能展現自然而富表現力的角色動態。
另一項重要突破在於模型創新的幀處理技術,可將任意長度歷史幀壓縮為單一且緊湊的隱層特徵,大幅降低計算消耗,並成功穩定生成長影片,從而解決製作長篇動畫內容的關鍵挑戰。
模型的先進能力有賴完善模型訓練方法。阿里巴巴研究團隊專門針對影視製作場景,構建了大規模影音資料集,並透過混合並行訓練,使 Wan2.2-S2V 能靈活支援不同格式影片生成,從豎屏短片到傳統橫屏影視作品均可勝任。
開源模型下載量破 690 萬次
用戶可在 Hugging Face、GitHub 以及阿里雲開源社區 ModelScope 下載 Wan2.2-S2V。阿里巴巴作為全球開源生態重要貢獻者,已於 2025 年 2 月開源 Wan2.1 系列模型,並於同年 7 月開源 Wan2.2 系列模型。至今 Wan 系列模型在 Hugging Face 與 ModelScope 平台總下載量已突破 690 萬次,顯示市場對該技術需求殷切。