欧美午夜性色大片在线观看_国产成人午夜电影网_91精品国产综合久久精品_污污片在线免费视频_日日干夜夜操s8_国产精品亚洲片在线播放_久久久久亚洲av无码专区_性欧美大战久久久久久久久_国产欧美在线观看视频_日韩国产中文字幕

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

這些大神在Meta的論文看一篇少一篇了

IP屬地 中國·北京 編輯:陳陽 量子位 時間:2025-11-17 14:07:06

離開meta的大佬們,留下作品還在陸續(xù)發(fā)表,今天輪到田淵棟。

這次他帶領(lǐng)團隊把目光投向了大模型強化學習訓練中一個令人困惑的現(xiàn)象:為什么RL訓練明明帶來巨大性能提升,卻只改變了極少數(shù)參數(shù)。

論文剖析了可驗證獎勵強化學習(RLVR)的訓練動態(tài),戳破了一個誤區(qū),參數(shù)更新的稀疏只是表面現(xiàn)象,背后是RLVR有個固定的優(yōu)化偏好。

對于同一個預訓練模型來說,無論用什么數(shù)據(jù)集和RL算法,RLVR只盯著同一小部分參數(shù)修改。

團隊還提出了一個全新的三門理論(Three-Gate Theory),一步步說明RLVR的參數(shù)更新是怎么定位至特定參數(shù)區(qū)域的。

三門理論:RL參數(shù)更新的內(nèi)在機制

像OpenAI-o3和DeepSeek-R1這樣的推理模型,都是通過大規(guī)模RLVR訓練獲得數(shù)學和編程能力的大幅增強。

按理說,如此巨大的能力提升應該伴隨著大量參數(shù)的改變,但最近的研究卻發(fā)現(xiàn),RL訓練產(chǎn)生的參數(shù)更新是稀疏的,而監(jiān)督微調(diào)(SFT)的參數(shù)更新是密集的。

這種高收益、低變化的悖論引發(fā)了meta團隊的關(guān)注。

他們分析了包括Qwen系列和DeepSeek-R1-Distill-Qwen在內(nèi)的多個開源模型,這些模型經(jīng)過超過3000步的長時間RL訓練,涵蓋數(shù)學、編程、STEM、邏輯謎題和指令遵循等多樣化任務。

通過設計一種bfloat16精度感知的探測方法,研究團隊準確測量了參數(shù)更新的稀疏度。結(jié)果顯示,SFT的稀疏度通常只有0.6%到18.8%,而RL的稀疏度高達36%到92%,相差了一個數(shù)量級。

但更重要的發(fā)現(xiàn)是,這種稀疏性只是表面現(xiàn)象,背后隱藏著一個更深層的機制:模型條件優(yōu)化偏差(model-conditioned optimization bias)。

為了解釋這種獨特的訓練行為,研究團隊提出了三門理論,解釋了RL更新是如何被約束、引導和過濾的。

第一門:KL錨定(KL Anchor)。

RLVR的核心是 “試錯學習”,但他次更新不會讓模型的輸出風格太偏離(比如原來模型說話簡潔,不能越學習越啰嗦)。

這個機制背后原理是,在線策略梯度更新會在每一步施加策略KL界限。

即使在沒有顯式KL正則項的DAPO算法中,比例裁剪技巧仍然會施加O(ε²)的KL界限。這種錨定效應確保了每步相對于當前策略的漂移很小,進而限制了參數(shù)的移動范圍。

第二門:模型幾何(Model Geometry)。

預訓練模型擁有高度結(jié)構(gòu)化的幾何特性,比如模型里負責核心邏輯的參數(shù),對應高曲率區(qū)域,改動起來影響大,但容易不穩(wěn)定。

在KL約束下,RL更新傾向于保持模型的原始權(quán)重結(jié)構(gòu),自然偏向于優(yōu)化景觀中的低曲率方向。

反觀SFT,因為修改高曲率區(qū)域容易接近標準答案,但改多了會把模型原有的能力框架 打亂,反而不利于復雜推理。

第三門:精度過濾(Precision)。

bfloat16的有限精度充當了一個透鏡,隱藏了在RL不愿施加大改變區(qū)域的微小更新。

由于bfloat16只有7位尾數(shù),小于單位最低位(ULP)閾值的變化無法表示。如果RL持續(xù)更新路由到特定參數(shù)子集,存儲的值就不會改變,結(jié)果就表現(xiàn)為稀疏性。

如果換成更高精度(比如 float32),會發(fā)現(xiàn)更多參數(shù)改動。

論文做了很多實驗驗證上面的邏輯,確認了RLVR和SFT在參數(shù)空間中的優(yōu)化區(qū)域完全不同。

通過分析奇異值分解(SVD)重構(gòu)后的主成分權(quán)重,團隊發(fā)現(xiàn)RL更新與主成分權(quán)重的重疊度始終低于隨機水平,表明RL有強烈的傾向避開這些權(quán)重。相反,RL更新與低幅度權(quán)重顯示出超隨機的重疊,這是因為它們對微小更新的阻力較低。

以及因果性驗證實驗,團隊通過正交旋轉(zhuǎn)和頭部置換故意”擾亂”Qwen3-4B-base模型特定層的幾何結(jié)構(gòu)。結(jié)果顯示,在被干預的層中,更新重疊度降至隨機水平,而在未觸及的層中保持較高,這證明預訓練模型的幾何結(jié)構(gòu)是優(yōu)化偏差的來源。

在光譜分析方面,RLVR檢查點在頂部主成分內(nèi)表現(xiàn)出明顯穩(wěn)定的譜:跨層的主子空間旋轉(zhuǎn)一致較小,譜漂移最小。奇異值曲線幾乎與基礎(chǔ)模型相同。相比之下,SFT在相同指標上引起了顯著更大的旋轉(zhuǎn)和明顯的漂移。

對參數(shù)高效微調(diào)方法的啟示

這項研究不僅解釋了觀察到的現(xiàn)象,還為RL訓練算法的設計提供了指導。

團隊的發(fā)現(xiàn)表明,許多SFT時代的參數(shù)高效微調(diào)(PEFT)方法,特別是通過稀疏或低秩先驗與主方向?qū)R的方法,在RLVR中的遷移效果很差。

在稀疏微調(diào)實驗中,僅更新主成分權(quán)重(SFT偏好的方向)會產(chǎn)生最差的優(yōu)化軌跡,KL曲線上升緩慢,顯示出過度干預和退化的訓練動態(tài)。

相反,更新非主成分、低幅度權(quán)重恰好符合理論預測的離主成分區(qū)域,能夠緊密跟蹤密集RLVR軌跡。

對于最近流行的LoRA變體,研究發(fā)現(xiàn)主成分定向的PiSSA并沒有比標準LoRA帶來額外收益。

在用于匹配全參數(shù)性能的較高學習率下,PiSSA經(jīng)常變得不穩(wěn)定并提前崩潰。這是因為在PiSSA中擴大學習率會強制沿主方向更新,而這些方向具有更高曲率和譜扭曲特性,正是RLVR傾向于避免的方向。

論文地址:https://arxiv.org/abs/2511.08567

標簽: 參數(shù) 模型 團隊 成分 權(quán)重 曲率 論文 方向 算法 區(qū)域 邏輯 方法 結(jié)構(gòu) 機制 理論 策略 界限 比例 微調(diào) 偏差 編程 能力 指令 大佬 尾數(shù) 閾值 標準 作品 單位 無法 收益 特性 空間

免責聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

久久男人中文字幕资源站| 青少年xxxxx性开放hg| 日韩中文字幕网站| 6080国产精品一区二区| 日韩欧美在线第一页| 亚洲视频中文字幕| 久久免费福利| 中文字幕在线看片| 成人女同在线观看| av大片在线观看| 男男激情在线| 国产二区视频在线观看| jzzjzzjzz亚洲成熟少妇| 日本中文字幕一区二区有码在线 | 亚洲7777| 一区二区三区av| 黄色网络在线观看| 17c丨国产丨精品视频| 成年丰满熟妇午夜免费视频| 精品久久久无码人妻字幂| 神马午夜伦理影院| 香港三级韩国三级日本三级| 乱妇乱女熟妇熟女网站| 日韩a在线播放| 精品日韩久久久| 亚洲午夜精品一区| 国产精品福利导航| 国产一区在线观看免费| 久久精品99国产精| 少妇久久久久久久| 99热这里只有精| 国产午夜精品理论片| 久久亚洲国产成人精品性色| 91porny在线| 国产又粗又猛又爽又| 中国a一片一级一片| 一个人看的www日本高清视频| 国产99999| 性xxxx视频播放免费| 免费不卡中文字幕视频| 精品国产福利一区二区在线 | 高清国产一区| 欧美日韩精品免费在线观看视频| 日韩欧美电影一区二区| 成人免费性视频| 欧美wwwwwww| 中文字幕5566| 欧美极品aaaaabbbbb| 销魂美女一区二区| 色婷婷综合视频| 91蝌蚪在线| 欧美h版电影| 毛片在线播放网站| av不卡高清| 亚洲一区电影| 99精品综合| 日本视频一区二区| 久久综合成人精品亚洲另类欧美| 亚洲激情图片qvod| 日韩一区二区免费在线电影| 中文字幕亚洲欧美日韩2019| 97精品欧美一区二区三区| 亚洲一区二区三区香蕉| 在线观看成人av| 三上悠亚在线一区二区| 成人激情五月天| 国产污视频网站| 久久久久久久久综合影视网| 天天摸天天操天天干| 日韩伦理在线观看| 久久免费资源| 午夜av一区| 国产黑丝在线一区二区三区| 亚洲男人的天堂av| 欧美精品一区二区三区一线天视频 | 国产欧美日韩一区二区三区四区| 国产精品久久久免费| 成人爱爱电影网址| 亚洲成人在线免费| 亚洲第一福利网站| 欧美一区二区三区四区在线| 国产亚洲第一区| 人人干视频在线| 在线观看国产精品一区| 狠狠躁夜夜躁人人爽视频| 国内国产区免费视频| 最新四虎影在线在永久观看www | 天天操夜夜骑| 免费观看成人高潮| 国产精品xxx在线观看| 国产欧美日韩一级| 中文字幕一区二区5566日韩| 日韩无一区二区| 欧美洲成人男女午夜视频| 日本一区不卡| 亚洲成人手机在线观看| 精品成人av一区二区在线播放| 亚洲精品久久久成人| 如如影视在线观看经典| 成人看片毛片免费播放器| 欧美激情1区2区| 欧美极品美女视频| 精品美女在线播放| 国产精品9999| 男女激情免费视频| 久久久久亚洲av片无码| 亚洲av成人无码久久精品老人 | 麻豆av在线导航| 美国一区二区| 韩国一区二区三区| 日韩欧美成人免费视频| 欧美精品videosex牲欧美| 日韩av免费电影| 亚洲啪av永久无码精品放毛片| 欧美人一级淫片a免费播放| 成年网站免费视频黄| 一级日本在线| 成人羞羞网站入口| 精品网站www| 美女裸体自慰在线观看| 综合久久2019| 日韩精品永久网址| 国产亚洲综合色| 日韩电影中文 亚洲精品乱码| 亚洲最大av网站| 男人的天堂日韩| 日韩欧美国产亚洲| www视频网站| 日本美女一区| 国产精品久久久亚洲一区| 亚洲一区二区三区在线| 久久视频在线直播| 日本a级片在线观看| 懂色av懂色av粉嫩av| 91美剧网在线播放| xxxxxx欧美| 视频一区二区三区在线| 91成人免费电影| 国产精品视频一区国模私拍 | 污视频网站在线| 精品三级av在线导航| 不卡电影免费在线播放一区| 日韩精品免费视频| 色播亚洲视频在线观看| 午夜精品久久久久99蜜桃最新版| 久久久久久久久久久久久91| 欧美v亚洲v| 性欧美长视频| 国产精品嫩草影院com| 日韩精品极品在线观看播放免费视频 | 久久综合亚州| 欧美日高清视频| 国产精品影视在线观看| 欧美亚洲国产一区二区三区va| 91精品综合视频| 性活交片大全免费看| 熟妇人妻系列aⅴ无码专区友真希| 黄色成人影院| 久久先锋影音| 精品久久久网站| 免费看污久久久| 男女日批视频在线观看| 逼特逼视频在线观看| 四虎免费播放| 日本韩国欧美| 99re这里都是精品| 久久亚洲国产精品| 国产精品一区二区羞羞答答| 国模无码一区二区三区| 波多野一区二区| 国产乱码精品一区二区三| 亚洲欧美精品伊人久久| 欧美成人aa大片| 欧美精品videosex极品1| 男操女免费网站| 四虎电影网址| 成人在线高清| 国产日韩精品一区二区浪潮av| 国内精品久久久久久| 潘金莲激情呻吟欲求不满视频| 久久久精品免费看| 午夜免费播放观看在线视频| 老司机久久99久久精品播放免费| 精品国产污网站| 成人资源视频网站免费| 久久久久久久久久97| 国产国产人免费人成免费视频| 深爱激情综合| 色婷婷久久综合| 欧美精品一区二区三区在线四季 | 在线观看网站免费入口在线观看国内| 国产精选一区二区三区| 久久香蕉国产线看观看av| 久久精品国产露脸对白| 国产xxx视频| 琪琪久久久久日韩精品| 伊人色**天天综合婷婷| 色哟哟日韩精品| 色狠狠久久av五月综合| 在线观看你懂的网站| 在线观看h网| 成人福利视频网站| 538国产精品一区二区在线| 国产在线观看无码免费视频| 操操操com| 日韩在线视屏| 欧美成人性福生活免费看| 亚洲中文字幕无码av永久| 先锋音影av资源中文网| 中文字幕日韩高清在线| 狠狠干狠狠久久| 亚洲高清资源综合久久精品| 极品颜值美女露脸啪啪| 92国产在线视频| 国产不卡在线一区| 国产成人精品视| 99久久婷婷国产综合| av在线收看| 国产成人丝袜美腿| 欧美有码在线视频| 国产一区二区精彩视频| 成人在线观看黄色| 懂色av一区二区三区免费观看 | 欧美午夜三级| 亚洲精品视频观看| 日本免费高清一区二区| 99久久久国产精品无码免费| 素人一区二区三区| 亚洲国产wwwccc36天堂| 日韩高清国产精品| 免费观看黄色一级视频| jizzjizzjizz欧美| 亚洲天堂久久久久久久| 欧美一区国产一区| 欧美视频一二区| 国产毛片久久久| 69p69国产精品| 免费国产成人av| www污网站在线观看| 国产视频一区免费看| 免费不卡欧美自拍视频| 国产精品丝袜高跟| 久久精品国产成人av| a欧美人片人妖| 精品国产电影一区| 国产精品一线二线三线| 夜色视频网站| 久久国产高清| 日韩美女视频免费看| wwwwww国产| 日本免费成人| 3atv一区二区三区| 91亚洲精品久久久蜜桃借种| 区一区二日本| 成人免费毛片aaaaa**| 99热在线播放| 后进极品白嫩翘臀在线视频| 亚洲传媒在线| 中文字幕欧美日韩精品| 纪美影视在线观看电视版使用方法| 日本视频在线免费观看| 亚洲色图20p| 国产一二三四区在线观看| 性爱视频日本| 老司机精品福利视频| 国产精品久久久久99| 精品国产www| 老司机aⅴ在线精品导航| 国产网站欧美日韩免费精品在线观看| 亚洲一区二区在线免费| 免费黄色在线| 欧美日韩国产色| 中文久久久久久| 在线观看国产视频| 国产网红主播福利一区二区| 亚洲精品永久www嫩草| 亚洲黄色在线播放| 91精品1区| 欧洲s码亚洲m码精品一区| 欧美日韩 一区二区三区| 国产一区二区三区亚洲| 一区二区三区国产视频| 免费麻豆国产一区二区三区四区| 日本少妇一区| 欧美精品一区二区三区久久久| 国产精品无码永久免费不卡| 激情视频在线观看| 丁香五六月婷婷久久激情| 三级a三级三级三级a十八发禁止| 欧美写真视频一区| 中文字幕一区二区三区在线观看 | 中文字幕影音先锋| 欧美激情精品久久久久久免费 | 国产精品久久精品日日| 精品国产乱码久久久久久丨区2区| 爱福利一区二区| 99国产精品视频免费观看一公开| 国产精品久久久久99| 日韩一区二区三区不卡| 精品99视频| 亚洲精品欧美日韩| 四虎中文字幕| 美女精品自拍一二三四| 精品欧美一区二区久久久伦| 国产免费高清| 成人免费视频视频| 在线无限看免费粉色视频| 成人毛片高清视频观看| 久久综合国产精品| 国产一区二区三区精彩视频 | 亚洲高清在线观看一区| 国产日韩在线| 国产精品乱人伦中文| 国产第一页视频| 在线免费看a| 欧美综合一区二区三区| 国产激情在线免费观看| 成人免费黄色| 中文国产亚洲喷潮| 亚洲一卡二卡在线| 韩国在线一区| 黑人中文字幕一区二区三区| 青青操视频在线观看| 久久伊人中文字幕| 97公开免费视频| 91麻豆免费在线视频| 欧美成人午夜电影| 97人人澡人人爽人人模亚洲| 欧美军人男男激情gay| 国产精品白丝jk喷水视频一区 | 夜夜骑天天操| 日韩美女久久久| 污视频网址在线观看| 三级在线看中文字幕完整版| 精品亚洲精品福利线在观看| 日本黄色免费网址| 4444免费观看| 天堂√最新版中文在线| 亚洲大片精品永久免费| 免费黄色在线| 久久精品视频一| 妺妺窝人体色www在线下载| 最新亚洲伊人网| 国产精品免费视频一区| 日本在线视频www色| 日本a级黄色| 欧美激情一区二区三区全黄| 日本a视频在线观看| 麻豆影视在线观看| 亚洲三级电影网站| 三区视频在线观看| 色老头在线观看| 日韩一区二区免费电影| 亚洲女人久久久| 国产成人一二片| 韩国福利视频一区| 五月婷婷丁香六月| 青娱乐精品视频在线| 欧美日韩国产三区| 高清成人av| 亚洲免费在线电影| aaa黄色大片| 99热播精品免费| 久久最新资源网| 国产黄色av网站| 久久精品导航| 先锋在线资源一区二区三区| 九色中文视频| 亚洲国产aⅴ天堂久久| 日本少妇xxxx| 亚洲免费一区| 高清在线视频日韩欧美| 亚洲欧美自偷自拍| 紧缚奴在线一区二区三区| 50度灰在线观看| 日本精品在线| 亚洲第一偷拍网| 天天操天天干天天摸| 亚洲国产综合在线看不卡| 欧美午夜精品久久久久久蜜| 天天噜天天色| 欧美性淫爽ww久久久久无| 爱爱视频免费在线观看| 国模吧精品视频| 亚洲自拍欧美色图| 四虎黄色影院| 日韩欧美中文免费| 黑鬼狂亚洲人videos| 欧洲激情综合| 国产伦精品一区二区三区免费视频 | 日本不卡二区高清三区| 在线播放免费| 欧美高清一级片在线| 国产在线一二区| 亚洲视屏一区| 中文字幕人成一区| 免费在线观看av网站| 亚洲福利在线播放| 亚洲天堂网视频| 美女精品在线|