![]()
新智元報道
編輯:元宇
Prime Intellect發(fā)布的INTELLECT-3,在數(shù)學(xué)、代碼等多項基準測試中取得同規(guī)模最強表現(xiàn)。該模型旨在將訓(xùn)練前沿模型的技術(shù)棧開放給社區(qū),推動大規(guī)模RL研究的普及與發(fā)展。
最近,Prime Intellect正式發(fā)布了INTELLECT-3。
這是一款擁有106B參數(shù)的混合專家(Mixture-of-Experts)模型,基于Prime Intellect的強化學(xué)習(xí)(RL)技術(shù)棧訓(xùn)練。
在數(shù)學(xué)、代碼、科學(xué)與推理的各類基準測試上,它達成了同規(guī)模中最強的成績,甚至超越了不少更大的前沿模型。
Prime Intellect已經(jīng)把完整的訓(xùn)練流程——包括模型權(quán)重、訓(xùn)練框架、數(shù)據(jù)集、RL環(huán)境和評測體系——全部開源,希望能推動更多關(guān)于大規(guī)模強化學(xué)習(xí)的開放研究。
INTELLECT-3使用的訓(xùn)練軟件與基礎(chǔ)設(shè)施,與即將在Prime Intellect平臺向所有人開放的版本完全一致。
這意味著未來每個人、每家公司都能擁有對最先進模型進行后訓(xùn)練的能力。
多項基準,斬獲SOTA
INTELLECT-3是一個106B參數(shù)的Mixture-of-Experts(MoE)模型,基于GLM 4.5 Air進行了監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)訓(xùn)練。
它在數(shù)學(xué)、代碼、科學(xué)和推理類Benchmark上均取得了同體量中的最強表現(xiàn)。
![]()
訓(xùn)練框架
訓(xùn)練中,Prime Intellect使用了以下核心組件:
PRIME-RL:自研的分布式RL框架,支持監(jiān)督微調(diào)和大規(guī)模MoE模型的強化學(xué)習(xí)。
Verifiers 與 Environments Hub:統(tǒng)一的環(huán)境接口與生態(tài),用于各類智能體式RL環(huán)境與評測。
Prime Sandboxes:高吞吐、安全的代碼執(zhí)行系統(tǒng),用于智能體代碼類環(huán)境。
算力編排:在64個互聯(lián)節(jié)點上的512張NVIDIA H200 GPU完成調(diào)度與管理。
INTELLECT-3完整使用PRIME-RL進行端到端訓(xùn)練。
這套框架與Verifiers環(huán)境深度整合,支撐從合成數(shù)據(jù)生成、監(jiān)督微調(diào)、強化學(xué)習(xí)到評估的整個后訓(xùn)練體系。
通過與Environments Hub的緊密連接,訓(xùn)練系統(tǒng)可以順暢訪問不斷擴展的環(huán)境與評測任務(wù)集合。
PRIME-RL最顯著的特點是全分布式(async-only)。
研究團隊在上一代INTELLECT-2時就已經(jīng)確認:
RL的未來一定是分布式的,也就是始終處于輕微off-policy的狀態(tài)。
因為在長時序智能體rollout中,分布式是唯一能避免速度瓶頸、真正擴大訓(xùn)練規(guī)模的方式。
![]()
過去6個月,研究團隊重點做了大量關(guān)于性能、穩(wěn)定性和大規(guī)模效率的消融實驗,INTELLECT-3正是這些研究的成果。
Prime Intellect也將在即將上線的Lab平臺提供托管式PRIME-RL,訪問者無需處理復(fù)雜基礎(chǔ)設(shè)施就能進行大規(guī)模RL訓(xùn)練。
訓(xùn)練環(huán)境
INTELLECT-3的訓(xùn)練環(huán)境由Verifiers庫構(gòu)建,并托管于Environments Hub,這是Prime Intellect面向社區(qū)的RL環(huán)境與評測中心。
Verifiers是當(dāng)前領(lǐng)先的開源工具,用來為模型構(gòu)建RL環(huán)境與評測任務(wù)。
它提供模塊化、可擴展的組件,讓復(fù)雜環(huán)境邏輯也能以簡潔方式描述,同時保持極高性能與吞吐。
傳統(tǒng)的RL框架通常把環(huán)境強綁定在訓(xùn)練倉庫里,使得版本管理、消融與外部貢獻都不方便。
Environments Hub則把基于Verifiers的環(huán)境作為獨立、可鎖定版本的Python模塊發(fā)布,并統(tǒng)一入口點,讓任務(wù)可以獨立版本化、共享與持續(xù)迭代。
![]()
INTELLECT-3使用的所有環(huán)境和評測,均已公開在Environments Hub。
為了支持強化學(xué)習(xí),Prime Intellect大幅擴展并升級了自研的Sandboxes基礎(chǔ)設(shè)施。
在幾千條并發(fā)rollout中安全執(zhí)行外部代碼,需要一個具備亞秒級啟動、毫秒級執(zhí)行延遲的容器編排層。
雖然Kubernetes提供了底層能力,但常規(guī)架構(gòu)并無法滿足這種高速度的訓(xùn)練需求。
Prime Sandboxes可以繞過Kubernetes控制面板,通過Rust直接與pod通信,做到接近本地進程的延遲;即使在大規(guī)模并發(fā)下也能在10秒內(nèi)啟動,且每個節(jié)點可穩(wěn)定運行數(shù)百個隔離沙箱。
在Verifiers中,研究人員將沙箱啟動與模型首輪推理并行,從而完全消除代碼執(zhí)行前的可感知等待時間。
算力調(diào)度
研究人員在64個互聯(lián)節(jié)點上部署了512張NVIDIA H200 GPU。
最大工程挑戰(zhàn)是如何在可能出現(xiàn)硬件故障的分布式系統(tǒng)里保持確定性與同步。
資源準備:使用Ansible做基礎(chǔ)設(shè)施即代碼、自動發(fā)現(xiàn)硬件,并進行InfiniBand預(yù)檢以隔離慢節(jié)點或故障節(jié)點。
調(diào)度:通過Slurm + cgroup v2確保任務(wù)可以干凈退出,不會留下占用GPU顯存的殘留進程。
存儲:用Lustre提供高吞吐訓(xùn)練I/O,用NVMe NFS作為快速元數(shù)據(jù)與便捷SSH存儲。
可觀測性:通過DCGM + Prometheus監(jiān)控,能在問題擴大前快速發(fā)現(xiàn)并下線不穩(wěn)定節(jié)點。
訓(xùn)練方案
INTELLECT-3主要分兩階段:
基于GLM-4.5-Air的監(jiān)督微調(diào),以及大規(guī)模RL訓(xùn)練。
兩個階段以及多輪消融實驗都在512張H200 GPU上運行,總共持續(xù)兩個月。
研究人員訓(xùn)練了覆蓋數(shù)學(xué)、代碼、科學(xué)、邏輯、深度研究、軟件工程等類別的多樣化RL環(huán)境,用來提升模型的推理與智能體能力。
所有環(huán)境均已在Environments Hub上公開。
![]()
所有基準測試也都提供了標準化且驗證過的實現(xiàn)。
未來,Prime Intellect的工作重點包括:
擴展智能體式RL:研究人員將繼續(xù)訓(xùn)練,并更強調(diào)智能體環(huán)境,預(yù)計能在更多任務(wù)上獲得進一步提升。
更豐富的RL環(huán)境:Environments Hub已擁有 500+ 任務(wù),涵蓋研究、電腦使用、定理證明、自動化和專業(yè)領(lǐng)域。INTELLECT-3 只用到了其中一小部分,下一步是讓RL覆蓋更多、更高質(zhì)量的社區(qū)任務(wù)。
長時序智能體:研究人員正在讓模型能夠自我管理上下文(如裁剪上下文、分支推理、維護輕量外部記憶),從而讓長時序行為真正可通過RL訓(xùn)練。未來也會探索專門獎勵長時序推理的環(huán)境。
Prime Intellect正在構(gòu)建開放的超級智能技術(shù)棧,把訓(xùn)練前沿模型的能力交到每個人手里。
INTELLECT-3 也證明:即使不是大實驗室,也可以訓(xùn)練出與頂尖團隊同臺競技的模型。
參考資料:
https://www.primeintellect.ai/blog/intellect-3
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標,鎖定新智元極速推送!





京公網(wǎng)安備 11011402013531號