近日,阿里巴巴云計(jì)算的 Qwen 團(tuán)隊(duì)發(fā)布了兩款全新的人工智能模型,旨在通過文本指令生成或克隆聲音。其中,Qwen3-TTS-VD-Flash 模型允許用戶根據(jù)詳細(xì)描述生成聲音,用戶可以精確定義聲音的特征,如情感和說話節(jié)奏。
例如,用戶可以請(qǐng)求生成一個(gè) “中年男性,洪亮的男中音 —— 充滿活力的廣告解說,快速的語速,夸張的音調(diào)變化,充滿銷售魅力的聲音”。根據(jù)制造商的說法,該模型在性能上超過了 OpenAI 最近推出的 GPT-4o mini-tts API。
第二款模型 Qwen3-TTS-VC-Flash,則可以僅通過三秒的音頻復(fù)制聲音,并能在十種語言中進(jìn)行復(fù)現(xiàn)。Qwen 聲稱,該模型的錯(cuò)誤率低于競(jìng)爭對(duì)手,例如 Elevenlabs 或 MiniMax。
此外,該 AI 還能夠處理復(fù)雜的文本,模仿動(dòng)物聲音,并從錄音中提取聲音。兩款模型均可通過阿里巴巴云的 API 訪問,用戶還可以在 Hugging Face 平臺(tái)上嘗試設(shè)計(jì)模型和克隆模型的演示。
劃重點(diǎn):





京公網(wǎng)安備 11011402013531號(hào)