欧美午夜性色大片在线观看_国产成人午夜电影网_91精品国产综合久久精品_污污片在线免费视频_日日干夜夜操s8_国产精品亚洲片在线播放_久久久久亚洲av无码专区_性欧美大战久久久久久久久_国产欧美在线观看视频_日韩国产中文字幕

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

快手提出熵比裁剪方法,從局部約束到全局穩定的關鍵一躍

IP屬地 中國·北京 機器之心Pro 時間:2025-12-16 20:16:04



本研究由快手科技語言大模型團隊完成,核心作者蘇振鵬,潘雷宇等。快手語言大模型團隊聚焦在基礎語言大模型研發、Agent RL 等前沿技術創新等方向,積累務實的探索 AGI 的能力邊界,并不斷推進 AI 領域新技術和新產品的發展。此前,該團隊已開源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在數學和代碼的基準測試上達到了同參數級別模型的 SOTA 效果。

在大語言模型的后訓練階段,強化學習已成為提升模型能力和對齊質量的核心范式。然而,在廣泛采用的 off-policy 的訓練范式中,更新當前策略的數據由舊的行為策略生成,導致分布漂移的問題的發生,這通常會將策略推至信任域之外,使強化學習的訓練變得不穩定。

盡管 PPO 通過重要性采樣的裁剪機制緩解了部分問題,但它僅能約束已采樣動作的概率變化,忽略了未采樣動作的全局分布漂移。為了應對這些挑戰,快手研究團隊提出了一種創新的熵比裁剪方法。該方法從全新的視角切入,通過約束策略熵的相對變化來穩定全局分布,為強化學習訓練提供了更加可靠的控制手段。



論文標題:Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning論文地址:https://arxiv.org/pdf/2512.05591

研究背景

強化學習訓練過程中長期面臨信任域偏離的挑戰。目前,業界用于大模型的強化學習常采用 off-policy 訓練范式,用于更新當前策略的數據由舊的行為策略生成,導致新舊策略之間存在分布漂移。主流方法通常采用重要性采樣來糾正此類偏差,但其固有的高方差可能導致更新步長不穩定,仍存在信任域偏離的風險。這種偏離具體表現為訓練過程中梯度范數和策略熵的劇烈波動。

PPO 算法是解決信任域偏離問題的主流方案,主要有兩種形式:

PPO-penalty:在目標函數中加入 KL 散度懲罰項,對新舊策略的分布差異進行全局約束。但是懲罰系數非常敏感,且對每個動作概率施加逐點約束可能會抑制探索。PPO-Clip:通過將重要性采樣比率限制在固定區間內,形成局部信任域,裁剪過大的更新以降低方差。該方法更魯棒且易于調參,但其約束僅作用于已采樣的動作,未采樣的動作則完全不受約束。

隨著訓練迭代的不斷進行,這部分未受約束的動作分布會持續漂移,最終威脅策略的穩定性。例如,假設動作空間為 {a, b, c, d},舊策略的概率分布為 {0.85, 0, 0.15, 0},經過多次迭代后,新策略的概率分布變為 {0.82, 0.064, 0.07, 0.046}。盡管采樣動作 a 的概率變化微小,PPO-Clip 不會觸發裁剪,但其余動作的分布已發生顯著偏移。

ERC 機制:從全局視角穩定策略分布

受 PPO-clip 啟發,論文提出了熵比裁剪(ERC)機制,當新舊策略間的熵變化超出允許范圍時,ERC 直接對樣本梯度進行截斷。ERC 并非取代 PPO-Clip,而是對其形成補充:PPO-Clip 僅約束采樣動作的局部更新幅度,而 ERC 將熵比限制在一個適中的區間內,從而緩解整體策略分布的漂移。

首先,論文提出了熵比指標,其被定義為新舊策略在同一 token 上熵的相對變化。具體的,它被形式化定義為下式:



不同于重要性采樣比率,熵比可以測量整個動作分布(包括未采樣動作)的變化,提供了對策略全局漂移的度量。另外,論文還對采樣動作概率與熵比的關系進行可視化,如下圖所示:



當采樣動作較低或者較高時,全局分布偏移變得更加明顯。

在將熵比作為策略分布的全局變化指標引入后,論文進一步將其集成到現有強化學習目標中,旨在約束新舊策略之間全局分布的變化。以 DAPO 為例,其 ERC 目標可形式化如下:



如果某個 token 的更新導致熵比超出預設范圍,ERC 會直接截斷其對應的梯度,以防止全局分布和策略熵的劇烈波動。與在整個訓練過程中持續限制策略的 KL 約束不同,熵比僅在新策略的熵發生顯著偏離時才被激活。這種方法既能防止策略分布的突然崩潰,又保留了足夠的探索能力。

實驗結果

為驗證 ERC 方法的穩定性和性能上的有效性,論文在多個數學推理基準上進行了系統實驗,包括 AIME24、AIME25、HMMT25、MATH500 、AMC23 和 Olympiad。所有實驗均基于 DeepSeek-R1-Distill-Qwen 模型(1.5B 與 7B)進行訓練。實驗結果如下表所示。



與現有的 RL 基線方法相比,集成 ERC 后,模型幾乎在所有基準測試上的性能都得到了一致提升。值得注意的是,在 AIME25 和 HMMT25 等更具挑戰性的基準上,性能增益更為顯著,凸顯了 ERC 在復雜推理場景中的強大潛力。此外,該方法在 1.5B 和 7B 兩種參數規模上均取得了一致的改進,進一步證明了其在不同模型容量下的魯棒性和可擴展性。



為了進一步驗證 ERC 對訓練動態的影響,論文比較了不同方法下熵和梯度范數的演化過程,如上圖所示。傳統的裁剪方法在訓練過程中常表現出較大的熵值波動和不穩定的梯度。相比之下,ERC 引入了全局熵比約束,熵值軌跡和梯度范數更加穩定,在基準上的評測結果也不斷提升。

深入分析:ERC 如何工作?

增強信任域約束

如下圖所示,ERC 的裁剪機制有效地強化了信任域約束。具體而言,被熵比邊界裁剪的 token 主要位于信任域的邊界附近。這表明,ERC 從全局分布的視角出發,能夠識別并限制可能導致策略偏離的更新,而這些更新正是 PPO-Clip 的局部約束所忽略的。因此,ERC 與 PPO-Clip 以互補的方式協同工作,共同減輕信任域偏離,增強訓練穩定性。



通過 ERC 保持探索

為了理解 ERC 對模型探索行為的影響,論文分析了在訓練中被熵比約束裁剪的 token 的熵分布,如下圖所示,大多數被 ERC 裁剪的 token 集中在低熵區域,而高熵 token 在優化過程中通常被保留。這表明 ERC 優先抑制那些過于確定性、信息增益有限的 token 的更新,而不會過度約束模型的探索動態。



裁剪比例分析

實驗結果顯示,ERC 引入的全局分布約束顯著提高了裁剪比例。PPO-Clip 下的裁剪比例通常保持在 0.02% 左右,而 ERC 將此數值提高了近三個數量級,達到約 20%。這種顯著差異源于兩種約束機制的根本不同:PPO-Clip 僅調控局部采樣動作的重要性比率,越界情況本就罕見;而 ERC 超越了這種局部約束,通過熵比融入了全局分布信號,使其能夠識別并裁剪大量在全局分布層面偏離信任區域的 token 更新。

盡管 ERC 的裁剪比例顯著更高,但其在最終性能和訓練穩定性上均持續超越 PPO-Clip 基線。這個看似違反直覺的結果揭示了一個關鍵見解:ERC 主要移除了那些會使訓練不穩定的噪聲更新。被 ERC 裁剪的 token 大多集中在低熵區域,這表明 ERC 抑制了過于確定性且可能有害的更新,同時保留了模型在其他地方的探索行為。

對比與泛化能力

論文還將 ERC 與其他穩定方法進行了對比,并驗證了其在其他強化學習算法中的泛化能力。

與 KL 正則化的對比:ERC 在 AIME24 和 AIME25 基準上均優于 PPO-penalty(即 KL 正則化方法)。KL 散度施加的是逐點約束,要求新舊策略對每個動作的概率分布都保持接近,這種嚴格的局部調控雖然可以穩定訓練,但不可避免地限制了有效的策略探索。而 ERC 實現了分布層面的軟約束,通過監控熵比來關注整體策略分布的演變,在維持訓練穩定性的同時鼓勵更高效的探索。與熵正則化的對比:ERC 的表現顯著優于在強化學習訓練中直接加入熵懲罰項的方法。熵正則化只能緩解單向的不穩定性(熵崩塌),而 ERC 的雙向裁剪機制能有效應對策略演化中熵值波動的兩個方向,確保策略的探索行為在合理可控的范圍內平穩演變。與序列級裁剪(GSPO)的對比:在 DeepSeek-R1-Distill-Qwen-7B 上的實驗表明,結合了 PPO-Clip 和 ERC 的 token 級裁剪方法相較于序列級裁剪方法(如 GSPO)仍具有明顯優勢。值得注意的是,ERC 與序列級裁剪是正交的,可以同時使用。更廣泛的適用性:除了 DAPO,論文還將 ERC 與 GPPO 方法結合。實驗表明,將 ERC 集成到 GPPO 中同樣能帶來一致的性能提升,為 ERC 在不同 RL 算法中的普遍有效性提供了有力證據。這表明 ERC 不僅是現有重要性比率裁剪技術的補充組件,也有潛力作為一個獨立且魯棒的約束機制來穩定策略優化。

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

国产精品18久久久| 久99久在线| 亚洲图片制服诱惑| 欧美日本免费一区二区三区| 亚洲精品日日夜夜| 1区2区3区欧美| 久久综合久久99| 国产一区二区精品久久| 欧美福利电影在线观看| 日韩在线你懂的| 国产区一区二| 亚洲精品一区三区三区在线观看| 五月天激情四射| 一区二区小视频| 国产美女主播视频一区| 国产一区二区中文字幕| 欧美国产一区在线| 在线观看区一区二| 欧美一卡二卡三卡四卡| 亚洲黄一区二区| 欧美精品在线免费观看| 热久久这里只有精品| 精品高清视频| 亚洲伊人一本大道中文字幕| 国产精品久久久久久av下载红粉| 国产欧美一区二区白浆黑人| 欧美日韩国产免费一区二区 | 日韩一区二区三区免费视频| 国产97免费视| 久久精品女人| 精品国产一区二区三区噜噜噜| av在线播放国产| 先锋在线亚洲| 国产麻豆精品一区二区三区v视界| av免费在线播放网站| 日本福利片在线观看| 美女免费观看一区二区三区| 天天干 夜夜操| 欧美韩日亚洲| 欧美性生活一级片| 精东影业在线观看| 色成人亚洲网| 电影中文字幕一区二区| 免费视频一区| 一区二区三区不卡视频在线观看| 亚洲人av在线影院| 免费在线成人av电影| 亚洲av无码一区二区三区网址| 老司机午夜福利视频| 国产cdts系列另类在线观看| 亚洲黄色av| 91久久精品一区二区三区| 国产伦精一区二区三区| 91视频你懂的| 亚洲欧美一区二区激情| 伊人色综合影院| 欧美韩日高清| 国产激情在线观看| 国产一级激情| 免费人成a大片在线观看动漫| 午夜精品在线播放| 污污网站免费看| 亚洲成a人片77777kkkk| 激情视频在线观看| 亚洲精品一二三区区别| 91老师片黄在线观看| 亚洲男人天堂视频| 亚洲天堂电影网| 国产精品白丝喷水在线观看| 天堂在线看视频| 天堂网av成人| 亚洲第一福利一区| wwwwww.欧美系列| 欧美成人亚洲成人| 五月婷婷丁香综合网| 精品美女www爽爽爽视频| 日韩伦理av| 青青草一区二区三区| 亚洲自拍偷拍网站| 天天色天天操综合| 亚洲国产精品999| 亚洲一区二区三区免费看| 影音先锋男人资源在线观看| h片在线免费观看| 国产午夜无码视频在线观看| 久久亚洲精品大全| 私库av在线播放| 久久精品视频免费在线观看| 中文字幕91视频| 国产精品亚洲精品| 中文字幕在线观看免费高清| 九九热视频在线观看| 日韩成人一区二区| 色噜噜久久综合伊人一本| 久久精品一区二| 神宫寺奈绪一区二区三区| 9.1麻豆精品| 亚洲国产精品天堂| 青娱乐一区二区| 一区二区三区免费观看视频| 欧美男女视频| 欧美性猛交xxxx| 97超碰在线人人| 国产乱国产乱老熟300部视频| 四虎永久网址| 欧美激情99| 欧美另类z0zxhd电影| 亚洲 欧美 日韩 国产综合 在线| 国产艳妇疯狂做爰视频| 一色屋成人免费精品网站| 精品96久久久久久中文字幕无| 国产主播自拍av| 亚洲一卡二卡三卡四卡无卡网站在线看| 欧美精品一区二区三区在线四季| 欧美日韩国产不卡在线看| 三级网在线观看| 日韩中字在线观看| 美女av免费观看| 佐山爱痴汉视频一区二区三区| 亚洲精品乱码| 亚洲字幕一区二区| 国产精品入口麻豆免费观看 | 欧美a级片免费看| www.亚洲视频| 99精品欧美一区二区三区小说| 国产精品二区在线观看| 免费一区二区在线观看| 在线欧美不卡| 91亚洲精华国产精华| 草逼视频免费看| 99日韩精品| 国产精品v欧美精品v日韩| 国产亚洲精品午夜高清影院| 国产精品一区二区三区网站| 欧美激情一区二区三区在线视频 | 日韩美女爱爱视频| 中文字幕人成人乱码亚洲电影| 伊人春色在线观看| 亚洲综合在线五月| 精品久久久噜噜噜噜久久图片 | 久久成人人人人精品欧| 欧美高清激情视频| 国产精品尤物福利片在线观看| 亚洲高清在线播放| 国内外成人激情视频| 玛雅亚洲电影| 制服视频三区第一页精品| 精品国产午夜福利在线观看| 国产丝袜在线播放| 欧美精品一区二区蜜臀亚洲| 国产资源中文字幕| а√天堂资源官网在线资源| 亚洲第一精品夜夜躁人人爽| 亚洲一区二区在线观| 天天射夜夜爽| 亚洲色图视频网站| 免费一级特黄3大片视频| 欧美午夜寂寞| 欧美极品第一页| 精品国产高清自在线一区二区三区| 国产91丝袜在线18| 国产伦精品一区二区三区四区视频_| 四虎亚洲精品| www.色综合| 中文字幕永久在线观看| 亚洲女色av| 欧美日高清视频| 久久国产视频一区| 久久一区亚洲| 欧美日韩亚洲一区二区三区在线观看| 国产激情一区二区三区四区| 99久久精品国产网站| 亚洲h精品动漫在线观看| 精品丝袜一区二区三区| 国产福利久久精品| av无码精品一区二区三区| 日韩电影在线观看中文字幕| 国产农村老头老太视频| 99久久精品国产导航| 亚洲成a人无码| 97精品国产| 男人天堂av片| 午夜视频在线观看精品中文| 国产伦精品一区二区三区四区视频| 在线免费91| 欧美日韩在线一区二区| 国产三级小视频| 久久婷婷久久一区二区三区| 精品伦精品一区二区三区视频密桃| 天天射综合网视频| 欧妇女乱妇女乱视频| 日韩三级视频| 麻豆一区区三区四区产品精品蜜桃| 天堂网www中文在线| 色先锋资源久久综合5566| 一二三四日本中文字幕| 亚洲成人av电影| 久久精品香蕉视频| 免费在线你懂的| 欧美另类videosbest视频| 国产又爽又黄的激情精品视频 | 神马午夜伦理不卡| 天堂一区二区在线| 日韩免费高清av| 亚洲午夜精品久久| 中文字幕一区二区人妻视频| 国产视频福利在线| 欧美aa国产视频| 伊人精品在线视频| 中文字幕日韩电影| 亚洲小说区图片区都市| 欧美视频免费看欧美视频| 日韩一区欧美二区| 国产精品久久久久久无人区| 在线精品高清中文字幕| 超碰成人免费| 天堂tv亚洲tv日本tv欧美人tv| 成人av免费播放| 伊人电影在线观看| 国产一区在线观看麻豆| 中文字幕v亚洲ⅴv天堂| 一二三四视频社区在线| 亚欧在线观看视频| 久久亚洲精品人成综合网| 国产亚洲欧美激情| 国产日产亚洲精品| 爱爱视频免费在线观看| 先锋av资源网| 99热在线精品观看| 亚洲欧美一区二区三区在线| 99视频在线视频| 国产免费黄网站| 影视一区二区三区| 亚洲国产精品影院| 欧美福利精品| 在线观看毛片av| 欧美色片在线观看| 天天色综合天天| av网站手机在线观看| 在线观看的黄色网址| 欧美日韩亚洲一区| 欧美大片在线免费观看| 欧美做爰啪啪xxxⅹ性| av在线免费网站| 亚洲免费视频成人| 伊人久久青草| 在线看黄色网| 久久久久久久高潮| 国产成人精品一区二区三区| 久久99国产综合精品免费| 视频精品导航| 欧美精品丝袜中出| 久久精品一二三四| 国模精品一区二区| 国产视频一区二区三区在线观看| 日韩动漫在线观看| 欧美最猛性xxxx高清| 亚洲欧美文学| 国内精品400部情侣激情| 日本熟伦人妇xxxx| 色诱色偷偷久久综合| 7777精品伊人久久久大香线蕉超级流畅 | 久久久成人精品一区二区三区 | 色综合久久av| 精品福利一区二区| 亚洲图区在线| 伊人狠狠av| 国产美女网站视频| 亚洲在线www| 一区二区三区免费播放| 岛国av在线不卡| 色婷婷av久久久久久久| 欧美视频网站| a级高清视频欧美日韩| 亚洲免费网站观看视频| 这里精品视频免费| 国产劲爆久久| 972aa.com艺术欧美| 亚洲高清国产拍精品26u| 亚洲丰满少妇videoshd| 日韩av网站在线观看| 色综合伊人色综合网站| 中国免费黄色片| 情趣网站视频在线观看| 久久99精品国产| 日本免费久久高清视频| 日韩欧美三级视频| 亚洲校园激情春色| 婷婷久久综合九色综合伊人色| 午夜午夜精品一区二区三区文| 天堂中文字幕av| 欧美日韩国产va另类| 国产熟人av一二三区| 69174成人网| 我的公把我弄高潮了视频| 亚洲黄色在线播放| 毛片免费在线| 99999精品视频| 影音av资源| 91在线云播放| 中文字幕免费在线不卡| xxxx影院| 久久久99免费| 久久婷婷国产精品| 亚洲区小说区图片区| 免费在线观看av网址| 亚洲人成电影| 亚洲无线码一区二区三区| 不卡中文字幕在线观看| av电影免费在线观看| 欧美精品亚洲二区| 久草福利资源在线| 欧美日韩视频免费看| 国产一区二区三区在线观看视频| 99视频在线看| 久久中文亚洲字幕| 国产精品老女人精品视频| 日本男人天堂网| 免费欧美日韩国产三级电影| 日韩成人在线资源| 91在线九色porny| 亚洲午夜激情av| 国产精品久久久免费观看| 99re久久| 一区二区三区久久精品| 欧美日韩a v| 欧美三区美女| 国产精品久久久久久久久久久久午夜片| 国产美女自拍| 久久精品视频免费观看| 熟妇人妻无乱码中文字幕真矢织江 | 国产欧美日韩亚洲一区二区三区| 高清免费日韩| 天天曰天天操| 亚洲欧美日韩国产手机在线| 黄页网站在线看| 欧洲亚洲精品| 欧美激情精品久久久久久久变态 | 久久久久.com| 欧美美乳视频| 69堂精品视频在线播放| 久操视频在线观看| 午夜影院观看视频免费| 国产又白又嫩又爽又黄| 九九热最新视频| 91视频免费在线看| 色婷婷国产精品免| 极品白嫩少妇无套内谢| 黄色大片在线看| 国产精品白浆视频免费观看| 欧美黄片一区二区三区| 国产av天堂无码一区二区三区| 欧美精品久久久久久久久久 | 亚洲人体影院| 人人在草线视频在线观看| 一级特黄aaaaaa大片| 欧美亚洲精品日韩| 欧美精品777| 亚洲资源av| 国产一区一区| 校园春色欧美| 日本三级电影免费观看| 91蝌蚪在线| 久久白虎精品| 久久久91麻豆精品国产一区| 国产婷婷97碰碰久久人人蜜臀 | 成人黄网大全在线观看| 国产午夜亚洲精品羞羞网站| 37pao成人国产永久免费视频| 欧美成人视屏| 精品久久五月天| 国内外免费激情视频| 国产精品久久久久久久久久小说| 亚洲欧美精品suv| 欧美在线免费播放| 亚洲精品乱码久久久久久日本蜜臀| 在线精品视频在线观看高清| 91精品国产免费久久久久久| 国产+人+亚洲| 国语自产精品视频在线看抢先版图片| 久久香蕉频线观| 欧美激情性做爰免费视频| 欧美大香线蕉线伊人久久国产精品 | 日韩电影在线免费| 国产精品12345| 国产成人精品一区二区三区视频 | 五月婷婷一区二区| 99精品视频免费观看| 三级4级全黄60分钟| 欧美中文高清| 精品一区二区日本| 免费大片黄在线| 久久久久久91| 色成人亚洲网| 日韩精品久久久久| 欧美日韩一区二区三区视视频 | 国产又黄又粗视频| 亚洲国产裸拍裸体视频在线观看乱了中文| 国产91沈先生在线播放| 亚洲色图图片|