阿里巴巴在人工智能領域的又一重大突破近日震撼發布——通義萬相宣布其多模態視頻生成模型Wan2.2-S2V正式開源。這項創新技術令人矚目,僅憑一張靜態圖片和一段音頻,即可生成面部表情栩栩如生、口型與音頻同步、動作流暢的電影級數字人視頻。
Wan2.2-S2V模型的單次視頻生成時長可達分鐘級別,這一顯著進步預示著數字人直播、影視后期制作及AI教育等多個行業將迎來視頻創作效率的大幅提升。目前,該模型已在通義萬相官網、Hugging Face及魔搭社區等平臺開放試用,開發者與行業用戶均可免費體驗。
阿里在視頻生成領域的探索之旅可謂碩果累累。早在7月28日,阿里便已開源Wan2.2系列模型,涵蓋文生視頻、圖生視頻及統一視頻生成。尤為文生視頻和圖生視頻模型作為業界首采MoE架構的視頻生成模型,樹立了新的行業標準。
時隔僅半個月,阿里再次發力,推出Wan2.2-I2V-Flash模型,其推理速度較之前版本提升了12倍,進一步降低了使用門檻。此次發布的Wan2.2-S2V模型,則更加注重音頻與圖像的深度融合,通過先進的音頻驅動技術,實現了畫面與音頻的精準同步。
在實際應用中,Wan2.2-S2V展現出了卓越的性能。無論是真人、卡通、動物還是數字人形象,只需上傳一張圖片和一段音頻,模型便能迅速生成生動的視頻。視頻中的角色能夠自然地進行說話、唱歌、表演等多種動作,面部表情和口型與音頻高度一致。
Wan2.2-S2V還支持不同分辨率的視頻生成,無論是豎屏短視頻還是橫屏影視劇,均能輕松駕馭。該模型引入了AdaIN和CrossAttention兩種控制機制,使得音頻控制效果更加精準、動態。
在一次測試體驗中,筆者上傳了一張動畫人物圖片,并輸入了一段文字指令,要求畫面中的角色唱歌。結果令人贊嘆,動畫人物不僅動作流暢,還自行配上了背景音樂,盡管嘴巴線條的識別仍有提升空間,但整體效果已相當驚艷。
隨后,筆者又嘗試上傳了一張歐美男生的照片和一段中文音頻。生成的視頻中,人物形象與原圖高度吻合,面部表情和嘴部動作與音頻完美同步,甚至臉上的光影變化都與嘴形變化相協調,充分展示了Wan2.2-S2V的強大生成能力。
隨著數字人直播、影視制作等行業的蓬勃發展,對高效視頻創作工具的需求愈發迫切。阿里通義萬相此次推出的Wan2.2-S2V模型,無疑為解決這一需求提供了強大的技術支持。這一創新成果,無疑將進一步推動視頻生成領域的快速發展。





京公網安備 11011402013531號