close

阿里巴巴開源 Wan2.2-S2V 語音驅動影片模型可生成電影級數碼人像影片

人工智能 by anskar on 29 八月, 2025

阿里巴巴正式發佈並開源全新 Wan2.2-S2V 語音驅動生成影片（Speech-to-Video）模型。這款創新工具專為創作數碼人像影片而設，用戶只需提供一張人像相片及一段音訊，即可生成具備電影級品質的動畫影片，支援說話、唱歌與表演等多種動作。

電影級品質支援多種畫幅

Wan2.2-S2V 屬於阿里巴巴 Wan2.2 影片生成系列成員，提供靈活多樣的人物動畫能力，支援肖像、半身以及全身等多種畫幅形式的影片創作。模型可依據文本指引動態生成人物動作與場景元素，協助專業內容創作者捕捉精準視覺表現，滿足特定敘事與設計需求。

該模型運用先進語音驅動動畫技術，呈現栩栩如生的人物動態，從自然對話到音樂演奏均能流暢展現，並可於同一場景中無縫處理多個角色。創作者還可透過語音音訊驅動生動動畫形態，支援多樣化主體形象，包括卡通、動物以及風格化形象。

為滿足專業內容創作者的多元需求，該技術靈活支援 480P 與 720P 解像度輸出，確保生成的高質素畫面符合多樣化專業與創意標準，既適用於社交媒體內容，也適合專業展示。

阿里巴巴達摩院視覺智能實驗室表示，開源 Wan2.2-S2V 除技術突破外，更體現阿里巴巴對全球創作者社群支持。團隊認為語音驅動視頻生成將成為生成式 AI 發展的重要方向，有潛力推動數碼人像技術在教育培訓、虛擬客服、直播娛樂及國際電影製作等場景使用。他們強調開源能促進行業技術共享，加速 AI 生態繁榮，最終令創作者與企業用戶直接受惠。

技術突破降低算力消耗

Wan2.2-S2V 超越傳統數碼人說話動畫，結合文本引導的全域運動控制與音訊驅動的細微局部運動，讓角色在多樣化和具挑戰場景中，依然能展現自然而富表現力的角色動態。

另一項重要突破在於模型創新的幀處理技術，可將任意長度歷史幀壓縮為單一且緊湊的隱層特徵，大幅降低計算消耗，並成功穩定生成長影片，從而解決製作長篇動畫內容的關鍵挑戰。

模型的先進能力有賴完善模型訓練方法。阿里巴巴研究團隊專門針對影視製作場景，構建了大規模影音資料集，並透過混合並行訓練，使 Wan2.2-S2V 能靈活支援不同格式影片生成，從豎屏短片到傳統橫屏影視作品均可勝任。

開源模型下載量破 690 萬次

用戶可在 Hugging Face、GitHub 以及阿里雲開源社區 ModelScope 下載 Wan2.2-S2V。阿里巴巴作為全球開源生態重要貢獻者，已於 2025 年 2 月開源 Wan2.1 系列模型，並於同年 7 月開源 Wan2.2 系列模型。至今 Wan 系列模型在 Hugging Face 與 ModelScope 平台總下載量已突破 690 萬次，顯示市場對該技術需求殷切。

Tags : alibaba wan2.2-s2v 阿里巴巴