IT之家 10 月 16 日消息,據(jù)“火山引擎”公眾號,在今天的 FORCE link AI 創(chuàng)新巡展?武漢站活動中,火山引擎全新發(fā)布和升級了四款豆包大模型:豆包大模型 1.6 升級,原生支持 4 種思考長度;豆包大模型 1.6 lite、豆包語音合成模型 2.0、豆包聲音復刻模型 2.0 全新發(fā)布。
IT之家匯總各模型主要信息如下:
豆包大模型 1.6 升級版
提供 Minimal、Low、Medium、High 四種思考長度,平衡企業(yè)在不同場景下對模型效果、時延、成本的不同需求,并進一步提升了思考效率。這也是國內首個原生支持“分檔調節(jié)思考長度”的模型。
相比模型升級之前的單一思考模式,升級后的豆包 1.6 模型總輸出 Tokens 下降 77.5%、思考時間下降 84.6%,模型效果保持不變。
為進一步滿足企業(yè)的多樣化需求,火山引擎正式推出豆包大模型 1.6 lite(Doubao-Seed-1.6-lite),相比旗艦模型豆包 1.6 更輕量、推理速度更快、更具性價比。效果上,該模型超越豆包大模型 1.5 pro(Doubao-Seed-1.5-pro),在企業(yè)級場景測評中較豆包 1.5 pro 提升 14%;價格上,在使用量最大的 0-32k 輸入?yún)^(qū)間里,綜合使用成本較豆包 1.5 pro 降低 53.3%。
![]()
豆包語音合成、聲音復刻 2.0 模型
豆包語音合成模型 2.0(Doubao-Seed-TTS 2.0)、豆包聲音復刻模型 2.0(Doubao-Seed-ICL 2.0),具備更強的情感表現(xiàn)力、更精準的指令遵循能力,還能準確朗讀復雜公式。
該模型基于豆包大語言模型研發(fā)語音合成新架構,讓合成和復刻的聲音都能進行深度語義理解,并拓展出上下文推理能力,從單純的文本朗讀進化為“理解后的精準情感表達”。用戶還能通過自然語言,實現(xiàn)對語速、情緒、聲線、音調、風格變化的精準調整,大幅提升語音的可控性。
新發(fā)布的兩大語音模型進行了針對性優(yōu)化,目前在小學至高中階段全學科的復雜公式朗讀中,準確率可達 90%。





京公網(wǎng)安備 11011402013531號