阿里巴巴近日在AI視頻生成領域再次邁出重要一步,其通義萬相平臺正式推出了全新多模態視頻生成模型Wan2.2-S2V。這一創新技術使得用戶僅憑一張靜態圖片和一段音頻,就能生成面部表情自然、口型同步、動作流暢的電影級數字人視頻。
據了解,Wan2.2-S2V的生成能力極為強大,單次視頻生成時長可達分鐘級別,這無疑為數字人直播、影視后期制作以及AI教育等多個行業帶來了革命性的視頻創作效率提升。目前,該模型已在通義萬相官網、Hugging Face以及魔搭社區等平臺上線,供開發者及行業用戶免費或付費試用。
回顧通義萬相的發展歷程,自今年早些時候以來,該平臺已陸續推出了多款視頻生成模型,包括文生視頻、圖生視頻以及音頻驅動生視頻等。而此次發布的Wan2.2-S2V,更是在音頻驅動方面實現了顯著的技術突破。
在實際體驗中,Wan2.2-S2V展現出了令人驚嘆的生成效果。無論是真人、卡通、動物還是數字人形象,只需上傳對應的圖片和音頻,模型就能讓圖片中的角色“活”起來,完成說話、唱歌、表演等各種動作。尤為該模型在口型同步和身體動作的自然度上達到了極高的水準,使得生成的視頻幾乎可以以假亂真。
除了強大的生成能力外,Wan2.2-S2V還支持多種畫幅和分辨率的視頻生成,滿足了不同場景下的使用需求。例如,用戶可以選擇生成豎屏短視頻,用于社交媒體傳播;也可以選擇橫屏影視劇格式,用于更專業的影視制作。
該模型還引入了層次化幀壓縮技術,將歷史參考幀的長度從數幀拓展到了73幀,從而實現了更加穩定的長視頻生成效果。這一技術的突破,無疑為長視頻內容的創作提供了更加堅實的基礎。





京公網安備 11011402013531號