欧美午夜性色大片在线观看_国产成人午夜电影网_91精品国产综合久久精品_污污片在线免费视频_日日干夜夜操s8_国产精品亚洲片在线播放_久久久久亚洲av无码专区_性欧美大战久久久久久久久_国产欧美在线观看视频_日韩国产中文字幕

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

RL是「點金石」還是「挖掘機」?CMU 用可控實驗給出答案

IP屬地 中國·北京 機器之心Pro 時間:2025-12-15 12:21:44




機器之心報道

機器之心編輯部

近期,強化學習(RL)技術在提升語言模型的推理能力方面取得了顯著成效。

然而,后訓練究竟是真正擴展了模型的推理能力,還是僅僅挖掘了預訓練中已有的潛力?目前尚不明確。

一個核心挑戰在于現代訓練流程缺乏可控性:大規模預訓練語料庫不夠透明,中期訓練往往缺乏充分研究,且 RL 目標函數與未知的先驗知識之間存在復雜的交互作用。

為了回答這個問題,來自卡耐基梅隆大學(CMU)的研究者通過構建基于 GSM-Infinite 的可控合成數據框架,在完全解耦的環境下,定量分析了預訓練、Mid-training(中期訓練/CPT)和 RL 三者對模型推理泛化能力的因果影響。旨在剝離并獨立分析預訓練、中期訓練以及基于 RL 的后訓練各自的因果貢獻。



https://x.com/xiangyue96/status/1998488030836044112

研究者從兩個維度對模型進行評估:針對更復雜組合的外推泛化能力,以及跨越不同表層語境的情境泛化能力。利用該框架,研究者調和了關于 RL 有效性的不同觀點。

研究表明:

僅當預訓練留有足夠提升空間,且 RL 數據針對模型的能力邊界(即那些雖具難度但尚未超出模型能力范圍的任務)時,RL 才能帶來真正的能力增益(pass@128)。情境泛化需要極少但充分的預訓練接觸,在此之后 RL 便能實現可靠的遷移。在固定計算量下,相比于僅使用 RL,中期訓練能顯著提升性能,證明了其在訓練流程中處于核心地位卻未被充分探索。過程級獎勵能減少獎勵破解(Reward Hacking)現象并提高推理的忠實度。



論文標題:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models論文地址:https://arxiv.org/abs/2512.07783Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-ReasoningHuggingFace:https://huggingface.co/Interplay-LM-Reasoning

綜上所述,這些結果闡明了預訓練、中期訓練和 RL 之間的相互作用,為理解和改進推理語言模型的訓練策略奠定了基礎。

該工作登上了 Alphaxiv 榜一。



同時該工作在 AI 社區收獲了一大波好評,ViT 作者之一 Lucas Beyer 也現身評論區。



核心方法:

完全可控的實驗沙盒

為了從因果層面解構大模型的推理能力來源,研究團隊并未直接使用現有的黑盒大模型或不可知的互聯網語料,而是設計了一套嚴密的可控合成數據框架。該框架基于 GSM-Infinite 生成技術,旨在從源頭控制數據分布、推理深度與語境廣度。



數據生成框架與任務設置概覽

基于依賴圖(DAG)的數據生成

該框架的核心理念是將「推理結構」與「表面語境」完全解耦。



語境渲染:在確定了推理骨架后,系統通過應用不同的「語境模板」(如動物園、學校等場景),將抽象的數學圖渲染為自然語言問題。這種分離使得研究者能夠考察模型是真正學會了推理邏輯,還是僅僅記住了特定的文本模式。

三階段訓練流程的嚴格隔離

為了避免數據污染導致的評估偏差,研究者定義了三個互不重疊的訓練階段,并在各階段精確調配數據分布:

預訓練:使用 10B token 的數據,主要包含基礎的推理原語(Primitives)和規則。重點在于讓模型掌握基礎能力(op=2-10),同時保留更深層任務作為未見過的測試集。中期訓練:這是一個連接預訓練與 RL 的「橋梁」階段。它使用與 RL 階段相似的數據分布(即模型能力邊緣的數據),旨在對齊模型的內部表征,使其做好「RL 就緒(RL-ready)」的準備。后訓練(Post-training / RL):采用 GRPO 算法,針對特定的任務難度和語境進行強化學習,以探索模型在特定獎勵信號下的能力邊界。

過程級驗證評估

為了防止模型「猜對答案」或通過錯誤的推理路徑得出正確結果(即 Reward Hacking),該研究引入了過程級驗證。系統不僅檢查最終答案,還會解析模型生成的思維鏈,將其還原為依賴圖,并與真實的一步步推理過程(Ground Truth DAG)進行比對。只有當推理步驟和最終答案全對時,才被判定為通過。

解構能力涌現的四個關鍵發現

基于上述框架,研究者進行了一系列控制變量實驗,得出了關于 RL、預訓練和中期訓練相互作用的四個關鍵結論,有力地調和了學術界關于「RL 是否能創造新能力」的爭議。

RL 的效用取決于「能力邊緣」

RL 并非在任何情況下都能提升推理能力。

對于預訓練中已充分掌握的簡單任務,RL 只能提升 pass@1(即減少失誤),無法提升模型的上限(pass@128)。

真正的能力躍遷發生在模型「能力邊緣」的任務上(例如預訓練覆蓋了 op=2-10,RL 針對 op=11-14)。在這一區間,RL 能夠通過探索帶來顯著的外推性泛化增益。如果任務難度過大(op=15-20),超出了模型的探索范圍,RL 的收益也會消失。

因此,RL 的訓練數據必須經過精心校準,瞄準模型的「能力邊緣」,既不能太簡單也不能太難。



不同難度任務下的 RL 表現

泛化的種子:1% 的預訓練暴露至關重要

在考察模型能否將推理能力遷移到全新語境時,研究發現,如果預訓練中完全沒有接觸過某種長尾語境(0%),即便 RL 階段大量訓練,模型也無法實現有效遷移。



因此,RL 無法無中生有,它需要預訓練提供最基礎的「原語」作為抓手。



預訓練數據混合比例對情境泛化的影響

中期訓練是計算效率的關鍵杠桿

在固定的計算預算(Compute Budget)下,如何分配中期訓練和 RL 的比例?

Mid-Training + RL > Pure RL:引入中期訓練階段比單純增加 RL 步數效果更好。

分配策略:實驗表明,對于極難任務(OOD-Hard),「少量中期訓練(建立先驗)+ 大量 RL(深度探索)」的組合是最佳策略;而對于中等難度任務,增加中期訓練的比重能帶來更穩定的 pass@1 表現。

中期訓練起到了「分布橋梁」的作用,極大地提升了 RL 的樣本效率和最終性能上限。



不同算力分配策略下的性能對比

過程獎勵抑制投機取巧

針對 RL 常見的獎勵破解問題——即模型利用捷徑獲取高分但推理邏輯錯誤,研究引入了過程監督。

實驗數據表明,將稀疏的結果獎勵與密集的過程獎勵相結合,能顯著減少結構性錯誤(如遺漏步驟或依賴關系錯誤)。這種混合獎勵機制在長鏈條推理任務($op=15text{-}20$)中帶來了穩定的 pass@1 提升。

過程級信號能夠規范 RL 的搜索方向,確保能力的提升是建立在忠實推理基礎之上的。



不同獎勵機制的效果對比

結語

這項工作通過解構訓練流程,給出了明確的實踐指導:

RL 數據設計:應針對模型的「能力邊緣」構建數據集,不要浪費算力在過易或過難的任務上。

預訓練策略:必須確保長尾領域的原子能力(Primitives)有至少 1% 的覆蓋率,為 RL 留出接口。

算力分配:根據目標任務的難度,動態調整中期訓練與 RL 的比例。攻克難題需要更多 RL,提升穩定性需要更多中期訓練。

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

中文字幕亚洲电影| 国产精品户外野外| 国产视频一区在线播放| 在线观看国产精品入口| 欧美日韩不卡| 97电影在线| eeuss影院在线观看第一页| 国产女无套免费视频| 污污内射在线观看一区二区少妇| 国产91在线亚洲| 99久久综合狠狠综合久久止| 久久精品视频va| 欧美精品乱码久久久久久| 国产精品久久久久精k8 | 亚洲自拍欧美精品| 精品一区二区三区久久久| 日韩电影免费在线观看| 国产伊人久久| av片在线观看免费| 天堂电影在线| 黄色影片网址| 男人用机机桶女人| 欧美日韩综合一区二区三区| 精品成人av一区二区三区| 免费日韩中文字幕| 亚洲区一区二区三区| 91青草视频久久| 久久欧美在线电影| 在线看欧美日韩| 欧美精品久久99久久在免费线 | 亚洲综合日韩| 日韩欧美一区免费| 欧美1区2区3区4区| 久久夜夜久久| 美女的胸无遮挡在线观看| 国模精品一区二区| 黄页在线观看视频| 天天摸天天干| 星空影院最新电视剧免费观看| 香蕉av一区二区三区| 国产又爽又黄免费软件| 91美女免费看| 日本视频www| 在线看的片片片免费| 瑟瑟视频在线观看| 香蕉久久久久久av成人| 亚洲狼人综合干| 黄色一级视频在线播放| 欧美一二三四区在线| 亚洲小说欧美激情另类| 亚洲视频一区二区在线| 欧美韩国日本综合| 国产日韩欧美激情| 久久久www免费人成精品| 国产91丝袜在线播放0| 日韩中文字幕亚洲一区二区va在线| 午夜精品免费| 1024精品久久久久久久久| 亚州av日韩av| 外国成人在线视频| 亚洲欧洲免费| 国产成人黄色| 日本成人小视频| 欧美精品羞羞答答| 日韩av片子| **女人18毛片一区二区| 欧美在线黄色| 极品中文字幕一区| 国产美女一区| 美女视频免费一区| 国产精一品亚洲二区在线视频| 狠狠色狠狠色综合| 国产不卡在线一区| 成人福利视频网站| www.性欧美| 久久久久久99久久久精品网站| 久久久久久久综合色一本| 久久久久国产精品麻豆ai换脸| 久久精品男人天堂av| 国产精品蜜臀在线观看| 一区二区三区波多野结衣在线观看| 亚洲精品国产高清久久伦理二区| 亚洲韩国精品一区| 欧洲一区二区三区免费视频| 欧美日韩一区成人| 精品久久一二三区| 国产亚洲精品一区二区| 欧美久久精品午夜青青大伊人| 欧美国产日韩一区二区三区| 欧美专区在线视频| 91精品久久久久久久久青青 | 国产精品久久久久久久久久久久久久久| 国产精品久久乐| 超碰在线成人| 99久久夜色精品国产亚洲狼| 亚洲电影av| 理论片日本一区| 成人h动漫精品| 欧美激情一区二区在线| 一区二区三区精品久久久| 欧美日韩亚洲精品一区二区三区| 91九色精品| 在线亚洲激情| 国产精品一区久久久久| 国产视频一区在线观看| 天天综合天天综合色| 欧美美女一区二区在线观看| 亚洲精品999| 欧美日韩xxx| 91亚洲va在线va天堂va国 | 成人免费区一区二区三区| 波多野结衣视频免费观看| 亚洲精品一区二区三区蜜桃| 国产精品视频白浆合集| 国产视频三区| 免费男女羞羞的视频网站在线观看| 无人区在线高清完整免费版 一区二| 福利欧美精品在线| 亚洲精品乱码| 99精品国产热久久91蜜凸| 亚洲精品久久久久久国产精华液| 欧美精品在线视频| 欧美大尺度在线观看| 成人激情综合网| 综合国产精品久久久| 天堂网在线免费观看| 一区二区精品免费| 亚洲精品无码久久久久| 香蕉久久成人网| 啦啦啦在线视频免费观看高清中文| 黄色av电影在线播放| 亚洲一区电影| 久久男女视频| 亚洲欧美日韩久久| 亚洲精品不卡在线| 欧美一区二区.| 色播亚洲婷婷| 日韩a一级欧美一级| 国产在线欧美在线| 精品国产免费观看一区| 久草在线网址| 视频一区国产| 日本最新不卡在线| 亚洲综合色丁香婷婷六月图片| 亚洲成人网av| 成人欧美一区二区三区黑人| 可以在线看的av网站| 亚洲人成人无码网www国产| 亚洲系列在线观看| 羞羞免费视频网站| 日韩高清中文字幕一区二区| 欧美另类综合| 自拍av一区二区三区| 亚洲第一区中文字幕| 国产精品免费在线免费| 妺妺窝人体色www看人体| 中文字幕第20页| 人妻va精品va欧美va| 婷婷福利视频导航| 91精品网站在线观看| 久久天堂成人| 色婷婷综合激情| 97在线观看免费高清| 自拍另类欧美| 亚洲女人久久久| 久久爱com| av天在线观看| 99久久亚洲精品| 国产欧美日韩视频一区二区| 亚洲国产精久久久久久| 1区1区3区4区产品乱码芒果精品| 日本xxxx黄色| 中文字幕av在线免费观看| 黄色成人羞羞视频| 另类一区二区三区| 国产伦精一区二区三区| 欧美疯狂做受xxxx富婆| 成人免费看吃奶视频网站| 日本一二区免费| 一级片aaaa| 亚洲大胆精品| 国产不卡av一区二区| 国产视频一区在线观看| 日韩一区二区三区xxxx| 亚洲第一页在线视频| 少妇aaaaa| jizz18日本| 久久精品黄色| 国产福利一区二区三区| 亚洲电影免费观看| 九九九九久久久久| 亚洲第一成人网站| 国内精品久久久久久影院8f| 日本一本在线免费福利| 国产一区二区你懂的| 在线免费精品视频| 成人午夜在线视频一区| 中文字幕99页| 欧美色图综合网| 樱花草涩涩www在线播放| 另类专区欧美蜜桃臀第一页| 日韩三级av在线播放| 久久精品99| 欧美性生交大片| av播放官网| 国偷自产视频一区二区久| 国产精品―色哟哟| 97国产成人精品视频| 国产精品视频分类| 欧美一区二区三区黄片| 日韩激情美女| 久久99精品国产麻豆婷婷| 日韩av网址在线| 欧美少妇在线观看| 中文字幕av久久爽| 日韩黄色影院| 视频一区视频二区在线观看| 欧美大胆一级视频| 伊人情人网综合| 最近中文字幕在线观看| 阿v免费在线观看| 香蕉视频成人在线观看| 91麻豆精品国产91久久久| 欧美日韩最好看的视频| 久青草视频在线观看| 在线观看国产福利视频| 在线观看一区| 欧美精品一区二区久久久| 中文字幕一区二区三区四区五区| 欧美一区免费看| 成人免费一区二区三区视频网站| 99re国产精品| 日韩av网址在线观看| 男女激情无遮挡| 少妇又色又爽又黄的视频| 成人免费短视频| 26uuu国产在线精品一区二区| 欧美激情免费视频| 久久久男人的天堂| 拍拍拍无挡免费播放视频在线观看| 给我免费播放日韩视频| 亚洲国产日韩av| 久久精品一二三区| 无码人妻丰满熟妇区bbbbxxxx | 蜜桃久久av一区| 国产一区二区三区在线免费观看| 人妻无码视频一区二区三区 | 成人在线分类| 亚洲精品免费看| 精品无码久久久久国产| 91看片在线播放| 理论片午午伦夜理片在线播放| 精品一区二区三区欧美| 欧美激情按摩在线| 三级电影在线看| 97香蕉久久| 久久黄色网页| 欧美成人免费小视频| 国产精品无码一区二区三| 丁香资源影视免费观看| 国产一区二区三区成人欧美日韩在线观看 | 日韩av成人在线观看| 特级西西www444人体聚色 | 99国内精品| 国产亚洲欧美日韩精品| 国产精品久久久久野外| 猫咪av网站| 亚洲精品极品| 欧美成人合集magnet| 女女互磨互喷水高潮les呻吟| 中文字幕电影在线| 久久99精品视频| 国产成人a亚洲精品| 麻豆一区产品精品蜜桃的特点| 欧美videos极品另类| av亚洲精华国产精华| 成人中文字幕在线观看| 欧美国产成人精品一区二区三区| 老色鬼在线视频| 亚洲永久精品国产| 日韩a级黄色片| 国产精品入口麻豆高清| 污视频网站免费看| 国产精品久久久亚洲一区| 日韩在线中文字幕| 波多野结衣福利| 国产中文字幕在线视频| 99久久免费视频.com| 成人综合电影| 亚洲国产精品一| 日韩福利视频一区| 精品国产凹凸成av人导航| 亚洲欧美日本一区二区三区| 日本女优北野望在线电影| 久久成人久久爱| 国产精品视频一区二区三区四| 国产免费av一区二区| 欧美成人精品三级网站| 色偷偷久久一区二区三区| 欧美 日本 亚洲| jizz视频| 蜜桃一区二区三区在线| 国产精品日韩欧美综合| 一级特黄aa大片| 欧美美女在线直播| 精品视频一区在线视频| www在线观看免费视频| aaa大片在线观看| 亚洲一区二区三区四区在线免费观看| 懂色av一区二区三区四区五区| 91午夜伦伦电影理论片| 日产国产欧美视频一区精品| 91精品视频在线免费观看| 成人黄色在线观看视频| 成人嫩草影院| 久久国产精品首页| 成人毛片18女人毛片| 日韩三级久久| 亚洲视频视频在线| 欧美成人精品欧美一级| 亚洲精品一区av| 日韩电影视频免费| 久久视频一区二区三区| 成人免费无遮挡| 精品久久久久99| 亚洲av无码国产精品麻豆天美| f2c人成在线观看免费视频| 欧美专区亚洲专区| 性活交片大全免费看| 污污视频在线| 欧美狂野另类xxxxoooo| 欧美丰满少妇人妻精品| 中文字幕在线中文字幕在线中三区| 欧美区在线观看| 国产精品密蕾丝袜| 欧洲美女精品免费观看视频 | 欧美激情在线看| 久久综合色视频| 久久经典视频| 欧美日韩国产激情| 在线成人免费av| 中文字幕资源网在线观看| 欧美无砖专区一中文字| 日本高清www| 日产精品一区| 亚洲视频专区在线| 中文字幕超碰在线| 成人av资源电影网站| 日韩美女在线观看| 一区免费观看| 麻豆国产精品777777在线| 欧美精品亚洲| 黄色无遮挡网站| 国产精品久久国产精麻豆99网站| 成年人网站大全| 成人在线播放| 欧美一区二区三区四区在线观看 | 最新亚洲人成网站在线观看| 亚洲欧美激情在线| 欧美一级大片免费看| 亚洲天堂免费电影| 一区二区三区黄色| 中文字幕一区二区三区免费看| 中文字幕一区二区三区在线视频 | 国产成人一区| 国产精品亚洲精品| 国产精品久久久久久久泡妞| 暴力调教一区二区三区| 久久精品国产精品亚洲色婷婷| 蜜芽在线免费观看| 日韩精品在线一区二区| 91av在线免费视频| 在线电影一区二区| 好吊妞www.84com只有这里才有精品| se在线视频| 亚洲大片精品永久免费| 少妇精品无码一区二区免费视频| 亚洲精品不卡在线观看| 日本高清不卡的在线| 国产偷窥女洗浴在线观看亚洲| 2022国产精品视频| 午夜免费一级片| 九九热这里有精品| 久久青草福利网站| 麻豆国产入口在线观看免费| 久久精品亚洲乱码伦伦中文| 五月天视频在线观看| 欧美123区| 国模极品一区二区三区| 国产伪娘ts一区| 国产精品亲子伦对白| 精品人妻一区二区三区香蕉| 老司机成人在线| 91九色露脸| 最新在线地址| 日韩精品专区在线影院重磅| 国产精品乱码一区二区| 九九**精品视频免费播放| 乱子伦视频在线看| 国产成人77亚洲精品www|