IT之家 8 月 28 日消息,騰訊混元今天午間宣布開源端到端視頻音效生成模型 Hunyuan-Foley,用戶只需輸入視頻和文字,就能為視頻匹配電影級音效。
根據官方介紹,HunyuanVideo-Foley 不僅打破了 AI 生成的視頻只能“看”不能“聽” 的局限,讓無聲 AI 視頻成為歷史,更是真正做到了“看懂畫面、讀懂文字、配準聲音”,帶來沉浸式視聽體驗。這款音效生成工具可廣泛應用于短視頻創作、電影制作、廣告創意和游戲開發等場景。
文字描述:Engine revving loudly and accelerating.
文本描述:Rustling and crunching of leaves and twigs under the fox kit's paws.
混元團隊開發了一個全面的數據處理管道,能夠自動化標注和過濾收集的音視頻數據,構建了約 10 萬小時級的高質量 TV2A 數據集,為模型訓練提供了強大支撐,使得模型擁有強大的泛化能力,能夠在各種復雜的視頻條件下生成音畫一致、語義對齊的高質量音頻,包括音效與背景音樂。生成的音頻能夠與無聲視頻相結合,極大提升了視頻的真實感和沉浸感。





京公網安備 11011402013531號