IT之家 12 月 24 日消息,阿里通義今日官宣,Qwen3-TTS 家族新推出兩款模型,音色創造模型 Qwen3-TTS-VD-Flash 和音色克隆模型 Qwen3-TTS-VC-Flash。IT之家附模型主要特點如下:
音色創造:Qwen3-TTS-VD-Flash 支持復雜自然語言指令輸入,實現對音色、韻律、情感、人設等的精細化調控,實現從“說什么”到“如何說”的全面掌控,可以讓用戶自由地定義想要的音色,徹底擺脫只能進行根據已有的音色進行克隆或者只能選擇固定的一部分預設音色。在 InstructTTS-eval 中綜合表現顯著優于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演測試中也超越 Gemini-2.5-pro-preview-tts。音色克隆:Qwen3-TTS-VC-Flash 支持 3s 級別音色克隆,并且可以基于克隆的音色生成中文、英文、德語、意大利語、葡萄牙語、西班牙語、日語、韓語、法語、俄語等 10 大主流語言。在 MiniMax TTS Multilingual Test Set 上,平均詞錯誤率(WER)全面優于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview。高表現力:Qwen3-TTS-VD-Flash 和 Qwen3-TTS-VC-Flash 具備高表現力的擬人化音色,能夠穩定、可靠地輸出高度契合輸入文本的語音內容,并根據文本語義自動調節語氣節奏,呈現自然生動的表達效果。魯棒的文本能力:Qwen3-TTS-VD-Flash 和 Qwen3-TTS-VC-Flash 具備強大的文本解析能力,可自動處理復雜文本結構,精準提取關鍵信息,對多樣化、非規范化的文本格式展現出較強的魯棒性(IT之家注:robustness,系統在面臨內部結構或外部環境的改變時維持功能穩定運行的能力)。Qwen3-TTS-VD-Flash
Qwen3-TTS 支持通過自然語言描述生成定制化的音色形象。用戶可以隨意輸入聲學屬性、人設描述、背景信息等自由描述,輕松創造出自己期望的聲音形象。
可控生成:在 InstructTTS-eval 中,Qwen3-TTS 綜合表現顯著優于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演測試中也超越 Gemini-2.5-pro-preview-tts。
![]()
Qwen3-TTS-VC-Flash
Qwen3-TTS 支持通過自然 3s 級別音色克隆,并且可以基于克隆的音色生成多語種音頻,同時對復雜文本和野生音頻都有較高的魯棒性。
多語種音色克隆:在 MiniMax TTS Multilingual Test Set 上,Qwen3-TTS 在中、英、法、意大利等語項的內容穩定性優于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview;其平均詞錯誤率(WER)位居第一。
![]()
Qwen3-TTS-Voice-Design API 文檔:
Qwen3-TTS-Voice-Clone API 文檔:





京公網安備 11011402013531號