在科技日新月異的今天,阿里再次展示了其在人工智能領域的深厚積累。近日,阿里通義萬相宣布正式開源其最新的多模態視頻生成模型——Wan2.2-S2V。這一創新技術允許用戶僅憑一張靜態圖片和一段音頻,就能生成面部表情生動、口型同步、動作流暢的電影級數字人視頻。
據悉,Wan2.2-S2V單次生成的視頻時長可達分鐘級別,這一突破有望極大提升數字人直播、影視后期制作、AI教育等多個行業的視頻創作效率。目前,該模型已在通義萬相官網、Hugging Face及魔搭社區等平臺上線,供開發者及行業用戶免費試用。
回顧阿里在視頻生成領域的探索歷程,不難發現其一直走在行業前列。早在7月28日,阿里便開源了包括文生視頻、圖生視頻及統一視頻生成在內的Wan2.2系列模型。其中,文生視頻和圖生視頻模型更是業界首個采用MoE架構的視頻生成模型,為行業樹立了新的標桿。
而僅僅半個多月后,阿里又推出了Wan2.2-I2V-Flash模型,其推理速度相較于前代提升了12倍,進一步降低了使用門檻。此次發布的Wan2.2-S2V則更加注重音頻與圖像的融合,通過精準的音頻驅動技術,實現了畫面與音頻的完美契合。
在實際體驗中,Wan2.2-S2V展現出了驚人的表現力。無論是真人、卡通、動物還是數字人形象,只需上傳一張圖片和一段音頻,模型便能生成一段生動的視頻。視頻中的主體形象能夠完成說話、唱歌、表演等多種動作,且面部表情和口型與音頻高度同步。
尤其Wan2.2-S2V還支持不同分辨率的視頻生成需求,無論是豎屏短視頻還是橫屏影視劇,都能輕松應對。該模型還引入了AdaIN和CrossAttention兩種控制機制,實現了更準確、更動態的音頻控制效果。
在測試過程中,筆者上傳了一張動畫人物圖片并輸入了一段文字指令,要求讓畫面中的角色唱歌。結果令人驚喜,動畫人物不僅動了起來,還自行配上了背景音樂,雖然嘴巴線條的識別仍有待提升,但整體效果已經相當出色。
筆者還嘗試上傳了一張歐美男生的照片和一段中文音頻。生成的視頻中,人物形象與原圖高度一致,面部表情和嘴部動作與音頻完美同步,甚至臉上的光線都隨著嘴形的變化而變化,展現出了Wan2.2-S2V強大的生成能力。
隨著數字人直播、影視制作等行業的快速發展,對高效視頻創作工具的需求日益迫切。阿里通義萬相此次推出的Wan2.2-S2V模型,無疑為解決這一需求提供了有力的技術支撐。未來,隨著技術的不斷迭代和完善,相信視頻生成領域將迎來更多的創新和突破。





京公網安備 11011402013531號