騰訊混元開源端到端AI模型Hunyuan-Foley：視頻+文字=“電影級”音效

IP屬地中國·北京 編輯：胡穎 IT之家 時間：2025-08-28 16:32:23

IT之家 8 月 28 日消息，騰訊混元今天午間宣布開源端到端視頻音效生成模型 Hunyuan-Foley，用戶只需輸入視頻和文字，就能為視頻匹配電影級音效。
根據官方介紹，HunyuanVideo-Foley 不僅打破了 AI 生成的視頻只能“看”不能“聽” 的局限，讓無聲 AI 視頻成為歷史，更是真正做到了“看懂畫面、讀懂文字、配準聲音”，帶來沉浸式視聽體驗。這款音效生成工具可廣泛應用于短視頻創作、電影制作、廣告創意和游戲開發等場景。
文字描述：Engine revving loudly and accelerating.
文本描述：Rustling and crunching of leaves and twigs under the fox kit's paws.
混元團隊開發了一個全面的數據處理管道，能夠自動化標注和過濾收集的音視頻數據，構建了約 10 萬小時級的高質量 TV2A 數據集，為模型訓練提供了強大支撐，使得模型擁有強大的泛化能力，能夠在各種復雜的視頻條件下生成音畫一致、語義對齊的高質量音頻，包括音效與背景音樂。生成的音頻能夠與無聲視頻相結合，極大提升了視頻的真實感和沉浸感。

標簽：音效視頻混元騰訊開源電影模型文字場景 高質量 音頻全面數據管道 數據處理 游戲 文字描述 語義音畫團隊條件 背景音樂 消息 音視頻 小時畫面聲音用戶歷史 真實感 官

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

鏖戰2025年，大模型圍著開源轉

“十四五”期間，我國5G用戶普及率從15%增至83.9%

舊金山一場停電，為什么馬斯克會“幸災樂禍”？

魯豫對話鴻蒙開發者：把興趣寫進系統里的年輕人

華碩終于發布RTX 5090D v2顯卡！OC版已正式上架：19999元

張一鳴押注、豆包加持！字節AR眼鏡外觀圖曝光

全站最新

鏖戰2025年，大模型圍著開源轉

“十四五”期間，我國5G用戶普及率從15%增至83.9%

舊金山一場停電，為什么馬斯克會“幸災樂禍”？

魯豫對話鴻蒙開發者：把興趣寫進系統里的年輕人

熱門推薦

OPPO Pad Air5上架開啟預售：售價1899元起

鏖戰2025年，大模型圍著開源轉

V觀財報｜通光線纜：未與SpaceX開展合作

“十四五”期間，我國5G用戶普及率從15%增至83.9%

舊金山一場停電，為什么馬斯克會“幸災樂禍”？

魯豫對話鴻蒙開發者：把興趣寫進系統里的年輕人

華碩終于發布RTX 5090D v2顯卡！OC版已正式上架：19999元

張一鳴押注、豆包加持！字節AR眼鏡外觀圖曝光

四大重磅舉措落地！徐匯AI+區塊鏈融合創新閃耀CCF中國區塊鏈技術大會

舊金山一場停電，為什么馬斯克會“幸災樂禍”？ | 電廠

在AI面前，人類終于不說謊了

iPhone Fold依舊有折痕：蘋果沒有攻克這一行業難題

李想“揮淚”送張驍，新L7 L8明年要打硬仗

九識聯手菜鳥對戰新石器？無人配送再生變

昇思MindSpore引領AI框架邁入“超節點時代”