IT之家 12 月 2 日消息,科技媒體 Tom's Hardware 今天(12 月 2 日)發(fā)布博文,報道稱英偉達(dá)在最新論文中,詳述名為 TiDAR 的新型 AI 解碼方法,巧妙融合了自回歸(Autoregressive)與擴散(Diffusion)兩種模型機制,利用 GPU 的“空閑槽位”加速文本生成。
自回歸(Autoregressive)是一種生成方式,AI 必須根據(jù)上一個字才能猜出下一個字,像接龍一樣,只能按順序一個接一個生成。
擴散(Diffusion)常用于 AI 繪畫的技術(shù),通過逐步去除噪點來生成內(nèi)容,在 TiDAR 中,它被用來一次性“猜”出好幾個可能的詞,供后續(xù)篩選。
IT之家援引博文介紹,當(dāng)前的語言模型通常一次生成一個 Token(詞元),這種逐個生成的機制導(dǎo)致了極高的計算成本和延遲。
TiDAR 的核心理念在于利用模型推理過程中未被使用的“空閑槽位”,在不犧牲生成質(zhì)量的前提下,通過單步生成多個 Token 來大幅提升響應(yīng)速度并降低 GPU 運行時長。
在技術(shù)原理方面,TiDAR 創(chuàng)新性地訓(xùn)練單個 Transformer 模型同時執(zhí)行兩項任務(wù):標(biāo)準(zhǔn)的自回歸“下一詞預(yù)測”和基于擴散的“并行起草”。
不同于以往依賴獨立草稿模型的投機解碼(Speculative Decoding),TiDAR 通過結(jié)構(gòu)化的注意力掩碼(Attention Mask)將輸入分為三個區(qū)域:前綴區(qū)、驗證區(qū)和起草區(qū)。

投機解碼是一種加速技術(shù),先用一個小模型快速草擬一段話,再由大模型進(jìn)行檢查和修正。TiDAR 試圖在同一個模型內(nèi)完成這兩步。
這種設(shè)計讓模型在利用擴散頭并行起草新 Token 的同時,還能通過自回歸頭驗證這些草稿,最關(guān)鍵的是,它確保了 KV 緩存(KV Cache)的結(jié)構(gòu)有效性,解決了早期擴散解碼器面臨的部署難題。

研究團隊基于 Qwen 系列模型進(jìn)行了測試。在 Humaneval 和 GSM8K 等基準(zhǔn)測試中,TiDAR 的準(zhǔn)確率與基準(zhǔn)模型持平甚至略有提升。
在速度方面,15 億參數(shù)版本的 TiDAR 模型實現(xiàn)了 4.71 倍的吞吐量增長;而 80 億參數(shù)版本的表現(xiàn)更為搶眼,吞吐量達(dá)到了 Qwen3-8B 基準(zhǔn)的 5.91 倍。這表明在當(dāng)前測試規(guī)模下,TiDAR 能有效利用 GPU 的顯存帶寬,在不增加額外顯存搬運的情況下生成更多 Token。
該媒體指出盡管實驗數(shù)據(jù)亮眼,TiDAR 目前仍面臨規(guī)模擴展的挑戰(zhàn)。論文中的測試僅限于 80 億參數(shù)以下的中小模型,且未涉及定制化的內(nèi)核級優(yōu)化(如 fused kernels),僅使用了標(biāo)準(zhǔn)的 PyTorch 環(huán)境。
隨著模型參數(shù)量和上下文窗口的擴大,計算密度可能會飽和,從而壓縮“多 Token 擴展”的成本優(yōu)勢。研究人員表示,未來將在更大規(guī)模的模型上進(jìn)行驗證,以確定該技術(shù)是否能成為云端大規(guī)模 AI 部署的實用替代方案。





京公網(wǎng)安備 11011402013531號