離開meta的大佬們,留下作品還在陸續(xù)發(fā)表,今天輪到田淵棟。
這次他帶領(lǐng)團隊把目光投向了大模型強化學習訓練中一個令人困惑的現(xiàn)象:為什么RL訓練明明帶來巨大性能提升,卻只改變了極少數(shù)參數(shù)。

論文剖析了可驗證獎勵強化學習(RLVR)的訓練動態(tài),戳破了一個誤區(qū),參數(shù)更新的稀疏只是表面現(xiàn)象,背后是RLVR有個固定的優(yōu)化偏好。
對于同一個預訓練模型來說,無論用什么數(shù)據(jù)集和RL算法,RLVR只盯著同一小部分參數(shù)修改。
團隊還提出了一個全新的三門理論(Three-Gate Theory),一步步說明RLVR的參數(shù)更新是怎么定位至特定參數(shù)區(qū)域的。

三門理論:RL參數(shù)更新的內(nèi)在機制
像OpenAI-o3和DeepSeek-R1這樣的推理模型,都是通過大規(guī)模RLVR訓練獲得數(shù)學和編程能力的大幅增強。
按理說,如此巨大的能力提升應該伴隨著大量參數(shù)的改變,但最近的研究卻發(fā)現(xiàn),RL訓練產(chǎn)生的參數(shù)更新是稀疏的,而監(jiān)督微調(diào)(SFT)的參數(shù)更新是密集的。
這種高收益、低變化的悖論引發(fā)了meta團隊的關(guān)注。
他們分析了包括Qwen系列和DeepSeek-R1-Distill-Qwen在內(nèi)的多個開源模型,這些模型經(jīng)過超過3000步的長時間RL訓練,涵蓋數(shù)學、編程、STEM、邏輯謎題和指令遵循等多樣化任務。
通過設計一種bfloat16精度感知的探測方法,研究團隊準確測量了參數(shù)更新的稀疏度。結(jié)果顯示,SFT的稀疏度通常只有0.6%到18.8%,而RL的稀疏度高達36%到92%,相差了一個數(shù)量級。

但更重要的發(fā)現(xiàn)是,這種稀疏性只是表面現(xiàn)象,背后隱藏著一個更深層的機制:模型條件優(yōu)化偏差(model-conditioned optimization bias)。
為了解釋這種獨特的訓練行為,研究團隊提出了三門理論,解釋了RL更新是如何被約束、引導和過濾的。
第一門:KL錨定(KL Anchor)。
RLVR的核心是 “試錯學習”,但他次更新不會讓模型的輸出風格太偏離(比如原來模型說話簡潔,不能越學習越啰嗦)。
這個機制背后原理是,在線策略梯度更新會在每一步施加策略KL界限。
即使在沒有顯式KL正則項的DAPO算法中,比例裁剪技巧仍然會施加O(ε²)的KL界限。這種錨定效應確保了每步相對于當前策略的漂移很小,進而限制了參數(shù)的移動范圍。

第二門:模型幾何(Model Geometry)。
預訓練模型擁有高度結(jié)構(gòu)化的幾何特性,比如模型里負責核心邏輯的參數(shù),對應高曲率區(qū)域,改動起來影響大,但容易不穩(wěn)定。
在KL約束下,RL更新傾向于保持模型的原始權(quán)重結(jié)構(gòu),自然偏向于優(yōu)化景觀中的低曲率方向。
反觀SFT,因為修改高曲率區(qū)域容易接近標準答案,但改多了會把模型原有的能力框架 打亂,反而不利于復雜推理。

第三門:精度過濾(Precision)。
bfloat16的有限精度充當了一個透鏡,隱藏了在RL不愿施加大改變區(qū)域的微小更新。
由于bfloat16只有7位尾數(shù),小于單位最低位(ULP)閾值的變化無法表示。如果RL持續(xù)更新路由到特定參數(shù)子集,存儲的值就不會改變,結(jié)果就表現(xiàn)為稀疏性。
如果換成更高精度(比如 float32),會發(fā)現(xiàn)更多參數(shù)改動。
論文做了很多實驗驗證上面的邏輯,確認了RLVR和SFT在參數(shù)空間中的優(yōu)化區(qū)域完全不同。
通過分析奇異值分解(SVD)重構(gòu)后的主成分權(quán)重,團隊發(fā)現(xiàn)RL更新與主成分權(quán)重的重疊度始終低于隨機水平,表明RL有強烈的傾向避開這些權(quán)重。相反,RL更新與低幅度權(quán)重顯示出超隨機的重疊,這是因為它們對微小更新的阻力較低。

以及因果性驗證實驗,團隊通過正交旋轉(zhuǎn)和頭部置換故意”擾亂”Qwen3-4B-base模型特定層的幾何結(jié)構(gòu)。結(jié)果顯示,在被干預的層中,更新重疊度降至隨機水平,而在未觸及的層中保持較高,這證明預訓練模型的幾何結(jié)構(gòu)是優(yōu)化偏差的來源。

在光譜分析方面,RLVR檢查點在頂部主成分內(nèi)表現(xiàn)出明顯穩(wěn)定的譜:跨層的主子空間旋轉(zhuǎn)一致較小,譜漂移最小。奇異值曲線幾乎與基礎(chǔ)模型相同。相比之下,SFT在相同指標上引起了顯著更大的旋轉(zhuǎn)和明顯的漂移。

對參數(shù)高效微調(diào)方法的啟示
這項研究不僅解釋了觀察到的現(xiàn)象,還為RL訓練算法的設計提供了指導。
團隊的發(fā)現(xiàn)表明,許多SFT時代的參數(shù)高效微調(diào)(PEFT)方法,特別是通過稀疏或低秩先驗與主方向?qū)R的方法,在RLVR中的遷移效果很差。
在稀疏微調(diào)實驗中,僅更新主成分權(quán)重(SFT偏好的方向)會產(chǎn)生最差的優(yōu)化軌跡,KL曲線上升緩慢,顯示出過度干預和退化的訓練動態(tài)。
相反,更新非主成分、低幅度權(quán)重恰好符合理論預測的離主成分區(qū)域,能夠緊密跟蹤密集RLVR軌跡。
對于最近流行的LoRA變體,研究發(fā)現(xiàn)主成分定向的PiSSA并沒有比標準LoRA帶來額外收益。
在用于匹配全參數(shù)性能的較高學習率下,PiSSA經(jīng)常變得不穩(wěn)定并提前崩潰。這是因為在PiSSA中擴大學習率會強制沿主方向更新,而這些方向具有更高曲率和譜扭曲特性,正是RLVR傾向于避免的方向。

論文地址:https://arxiv.org/abs/2511.08567





京公網(wǎng)安備 11011402013531號