英偉達(dá)發(fā)布TiDAR：單步生成多個Token，AI吞吐量提升近600%

IP屬地中國·北京 編輯：李娜 IT之家 時間：2025-12-02 16:09:00

IT之家 12 月 2 日消息，科技媒體 Tom's Hardware 今天（12 月 2 日）發(fā)布博文，報道稱英偉達(dá)在最新論文中，詳述名為 TiDAR 的新型 AI 解碼方法，巧妙融合了自回歸（Autoregressive）與擴散（Diffusion）兩種模型機制，利用 GPU 的“空閑槽位”加速文本生成。
自回歸（Autoregressive）是一種生成方式，AI 必須根據(jù)上一個字才能猜出下一個字，像接龍一樣，只能按順序一個接一個生成。
擴散（Diffusion）常用于 AI 繪畫的技術(shù)，通過逐步去除噪點來生成內(nèi)容，在 TiDAR 中，它被用來一次性“猜”出好幾個可能的詞，供后續(xù)篩選。
IT之家援引博文介紹，當(dāng)前的語言模型通常一次生成一個 Token（詞元），這種逐個生成的機制導(dǎo)致了極高的計算成本和延遲。
TiDAR 的核心理念在于利用模型推理過程中未被使用的“空閑槽位”，在不犧牲生成質(zhì)量的前提下，通過單步生成多個 Token 來大幅提升響應(yīng)速度并降低 GPU 運行時長。
在技術(shù)原理方面，TiDAR 創(chuàng)新性地訓(xùn)練單個 Transformer 模型同時執(zhí)行兩項任務(wù)：標(biāo)準(zhǔn)的自回歸“下一詞預(yù)測”和基于擴散的“并行起草”。
不同于以往依賴獨立草稿模型的投機解碼（Speculative Decoding），TiDAR 通過結(jié)構(gòu)化的注意力掩碼（Attention Mask）將輸入分為三個區(qū)域：前綴區(qū)、驗證區(qū)和起草區(qū)。
投機解碼是一種加速技術(shù)，先用一個小模型快速草擬一段話，再由大模型進(jìn)行檢查和修正。TiDAR 試圖在同一個模型內(nèi)完成這兩步。
這種設(shè)計讓模型在利用擴散頭并行起草新 Token 的同時，還能通過自回歸頭驗證這些草稿，最關(guān)鍵的是，它確保了 KV 緩存（KV Cache）的結(jié)構(gòu)有效性，解決了早期擴散解碼器面臨的部署難題。
研究團隊基于 Qwen 系列模型進(jìn)行了測試。在 Humaneval 和 GSM8K 等基準(zhǔn)測試中，TiDAR 的準(zhǔn)確率與基準(zhǔn)模型持平甚至略有提升。
在速度方面，15 億參數(shù)版本的 TiDAR 模型實現(xiàn)了 4.71 倍的吞吐量增長；而 80 億參數(shù)版本的表現(xiàn)更為搶眼，吞吐量達(dá)到了 Qwen3-8B 基準(zhǔn)的 5.91 倍。這表明在當(dāng)前測試規(guī)模下，TiDAR 能有效利用 GPU 的顯存帶寬，在不增加額外顯存搬運的情況下生成更多 Token。
該媒體指出盡管實驗數(shù)據(jù)亮眼，TiDAR 目前仍面臨規(guī)模擴展的挑戰(zhàn)。論文中的測試僅限于 80 億參數(shù)以下的中小模型，且未涉及定制化的內(nèi)核級優(yōu)化（如 fused kernels），僅使用了標(biāo)準(zhǔn)的 PyTorch 環(huán)境。
隨著模型參數(shù)量和上下文窗口的擴大，計算密度可能會飽和，從而壓縮“多 Token 擴展”的成本優(yōu)勢。研究人員表示，未來將在更大規(guī)模的模型上進(jìn)行驗證，以確定該技術(shù)是否能成為云端大規(guī)模 AI 部署的實用替代方案。

標(biāo)簽：模型 技術(shù) 解碼部署方面利用媒體草稿投機空閑難題槽位 數(shù)據(jù) 結(jié)構(gòu)化 成本噪點 質(zhì)量 結(jié)構(gòu) 參數(shù) 注意力 優(yōu)勢 內(nèi)容 前提 有效性 掩碼人員科技消息持平 基準(zhǔn) 準(zhǔn)確率 原理

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

鏖戰(zhàn)2025年，大模型圍著開源轉(zhuǎn)

“十四五”期間，我國5G用戶普及率從15%增至83.9%

舊金山一場停電，為什么馬斯克會“幸災(zāi)樂禍”？

魯豫對話鴻蒙開發(fā)者：把興趣寫進(jìn)系統(tǒng)里的年輕人

華碩終于發(fā)布RTX 5090D v2顯卡！OC版已正式上架：19999元

張一鳴押注、豆包加持！字節(jié)AR眼鏡外觀圖曝光

全站最新

鏖戰(zhàn)2025年，大模型圍著開源轉(zhuǎn)

“十四五”期間，我國5G用戶普及率從15%增至83.9%

舊金山一場停電，為什么馬斯克會“幸災(zāi)樂禍”？

魯豫對話鴻蒙開發(fā)者：把興趣寫進(jìn)系統(tǒng)里的年輕人

熱門推薦

OPPO Pad Air5上架開啟預(yù)售：售價1899元起

鏖戰(zhàn)2025年，大模型圍著開源轉(zhuǎn)

V觀財報｜通光線纜：未與SpaceX開展合作

“十四五”期間，我國5G用戶普及率從15%增至83.9%

舊金山一場停電，為什么馬斯克會“幸災(zāi)樂禍”？

魯豫對話鴻蒙開發(fā)者：把興趣寫進(jìn)系統(tǒng)里的年輕人

華碩終于發(fā)布RTX 5090D v2顯卡！OC版已正式上架：19999元

張一鳴押注、豆包加持！字節(jié)AR眼鏡外觀圖曝光

四大重磅舉措落地！徐匯AI+區(qū)塊鏈融合創(chuàng)新閃耀CCF中國區(qū)塊鏈技術(shù)大會

舊金山一場停電，為什么馬斯克會“幸災(zāi)樂禍”？ | 電廠

在AI面前，人類終于不說謊了

iPhone Fold依舊有折痕：蘋果沒有攻克這一行業(yè)難題

李想“揮淚”送張驍，新L7 L8明年要打硬仗

九識聯(lián)手菜鳥對戰(zhàn)新石器？無人配送再生變

昇思MindSpore引領(lǐng)AI框架邁入“超節(jié)點時代”