![]()
新智元報道
編輯:好困
剛剛,由SciMaster團隊推出的AI機器學(xué)習(xí)專家ML-Master 2.0,基于國產(chǎn)開源大模型DeepSeek,在OpenAI權(quán)威基準測試MLE-bench中一舉擊敗Google、meta、微軟等國際頂流,刷新全球SOTA,再次登頂!目前該功能已在SciMaster線上平臺開放waiting list,歡迎申請體驗。
從《三體》中時刻干擾基礎(chǔ)物理實驗的「智子」,到《2001太空漫游》里具備自主決策能力的HAL,再到阿西莫夫筆下具有推理與科學(xué)探索能力的機器人,人類對一個問題的想象由來已久:
如果智能體不再只是工具,而是能夠像科學(xué)家一樣,在復(fù)雜環(huán)境中長期探索、不斷修正假設(shè),科學(xué)會發(fā)生什么變化?
![]()
很長一段時間里,這樣的設(shè)想更多停留在科學(xué)想象中;而隨著大模型能力的快速躍遷,它正逐漸演變?yōu)橐粋€正在被認真對待的現(xiàn)實技術(shù)命題。
越來越多研究者開始意識到,真正的分水嶺并不在于AI能否把題「答對」,而在于它能否像科研人員一樣,在長期不確定的探索過程中不斷修正方向、積累經(jīng)驗,并在反復(fù)試錯中推動知識本身向前演化。
Google DeepMind推出的AlphaEvolve,試圖讓AI在長時間的演化過程中不斷修正自身策略;
OpenAI提出的Frontier Science,明確將衡量重點放在AI是否能夠在真實科研任務(wù)中持續(xù)工作、反復(fù)迭代;
美國甚至啟動了號稱「AI曼哈頓計劃」的Genesis Mission,嘗試將AI系統(tǒng)性地嵌入國家級科學(xué)研究體系之中。
![]()
這些探索路徑雖不相同,卻共同指向一個核心共識:
真正推動科學(xué)進步的AI,不是只會在競賽中給出標準答案,而是能夠在真實科研環(huán)境中,面對超長程科研任務(wù)時,經(jīng)受長時間試錯、不斷自我演化,并在持續(xù)迭代中逐步演化出可靠能力。
正是在這樣的背景下,AI4AI(AIfor AI)逐漸成為一個至關(guān)重要的方向:
它既是AI參與科學(xué)研究的重要形態(tài)之一,更直接關(guān)系到AI能否通過自身實踐推動能力增長,從而支撐更長期、更復(fù)雜的科研任務(wù)。
因而,OpenAI所提出的MLE-bench中所聚焦的機器學(xué)習(xí)工程(Machine LearningEngineering, MLE)任務(wù),恰恰成為AI4AI場景下極為貼切的研究對象。
相比理想化的答題類型任務(wù),真實的MLE科研往往需要在十幾個甚至數(shù)十小時內(nèi),持續(xù)經(jīng)歷實驗設(shè)計、代碼實現(xiàn)、調(diào)試修正與結(jié)果分析等完整閉環(huán),其過程高度依賴長期試錯與經(jīng)驗積累。
這也使得MLE-bench成為少數(shù)能夠真實反映AI是否具備長期科研演化能力的評測基準之一。
![]()
由上海交通大學(xué)人工智能學(xué)院、上海算法創(chuàng)新研究院、深勢科技組成的SciMaster團隊推出的面向真實機器學(xué)習(xí)科研任務(wù)的自主智能體ML-Master 2.0,就是這樣一個專門為「機器學(xué)習(xí)工程」而生的AI4AI(AI for AI)系統(tǒng)。
結(jié)合EigenAI提供的穩(wěn)定高性能AI基礎(chǔ)設(shè)施,該智能體基于國產(chǎn)大模型DeepSeek-V3.2-Speciale,在MLE-bench上擊敗Google,meta,Microsoft等團隊構(gòu)建的一系列智能體,取得全球第一的成績。
更重要的是,它已經(jīng)在多家科技公司與實驗室中落地,用于具身智能機器人訓(xùn)練、理論物理模擬與發(fā)現(xiàn)等前沿場景。
![]()
這一結(jié)果不僅是一項榜單排名,更清晰地表明:
在面向真實科研任務(wù)、強調(diào)長期演化與工程閉環(huán)的自主智能體方向上,中國研究者已經(jīng)具備與國際頂尖團隊同臺競爭、并實現(xiàn)領(lǐng)先突破的能力。
ML-Master 2.0
為真實機器學(xué)習(xí)科研而生的自主智能體
在真實的機器學(xué)習(xí)工程(Machine Learning Engineering, MLE)中,科研并不是一次性「把題做對」。
相反,它往往是一個漫長而反復(fù)的過程:
設(shè)定實驗假設(shè)、編寫與修改代碼、定位bug、分析結(jié)果、推翻假設(shè)、再重新開始。這樣的循環(huán),可能持續(xù)幾個,甚至數(shù)十個小時。
ML-Master 2.0正是圍繞這一真實科研場景被系統(tǒng)性設(shè)計出來的。
與許多只關(guān)注短程推理或單次任務(wù)成功的智能體不同,它從設(shè)計之初就假定:
沒有人類在旁實時糾錯;
實驗失敗是常態(tài)而非例外;
真正有價值的能力,來自長期反復(fù)試錯中的積累。
在保留原有ML-Master探索—利用閉環(huán)的基礎(chǔ)上,ML-Master 2.0進一步著重在長時間的探索中保持研究方向不跑偏,并且將失敗轉(zhuǎn)化為可復(fù)用的經(jīng)驗的能力。
這也直接引出了其關(guān)鍵設(shè)計理念之一:
科研型智能體必須具備長期認知積累的能力,而不是將上下文視為一次性消耗的推理材料。
超長程自主:能跑代碼,更能長期思考
在ML-Master 2.0的設(shè)計中,這種能力被明確概括為一個核心概念:
超長程自主(Ultra-Long-Horizon Autonomy)
在MLE場景下,真正的自主性并不等價于更強的代碼生成能力,而體現(xiàn)在系統(tǒng)是否能夠:
在長達數(shù)十小時的探索中持續(xù)圍繞同一科研目標展開;
從大量失敗實驗中總結(jié)規(guī)律,而不是簡單重復(fù)嘗試;
主動避開已經(jīng)驗證無效的技術(shù)路徑;
將一次任務(wù)中獲得的經(jīng)驗遷移到后續(xù)的新任務(wù)中。
換句話說,問題的關(guān)鍵并不在于「上下文夠不夠長」,而在于:
這些上下文是否能夠被持續(xù)整理、篩選,并真正沉淀為可復(fù)用的認知資產(chǎn)。
以「認知積累」為核心的ML-Master 2.0架構(gòu)
基于上述思考,ML-Master 2.0構(gòu)建了一套圍繞長期科研探索的整體技術(shù)框架。
在這一架構(gòu)中,上下文不再被視為「用完即丟」的推理輸入,而是被建模為一種具有生命周期的認知資產(chǎn)。
隨著科研過程不斷推進,系統(tǒng)內(nèi)部的認知逐步發(fā)生分化:
Experience(經(jīng)驗):直接服務(wù)于當前決策的即時執(zhí)行軌跡;
Knowledge(知識):在同一任務(wù)中多次驗證后形成的穩(wěn)定結(jié)論;
Wisdom(智慧):能夠跨任務(wù)復(fù)用的高層策略與認知原型。
為了系統(tǒng)性地管理這一演化過程,ML-Master 2.0引入了層次化認知緩存(Hierarchical Cognitive Caching, HCC)機制。
![]()
層次化認知緩存:為長程科研提供記憶支點
從直觀層面看,層次化認知緩存并不是簡單地「把上下文存得更多」,而是讓不同時間尺度的認知各司其職:
即時演化的經(jīng)驗,用于保證當前探索過程的連續(xù)性;
階段性穩(wěn)定的知識,在同一科研任務(wù)中被反復(fù)調(diào)用;
跨任務(wù)沉淀的先驗智慧,為新問題提供高質(zhì)量起點。
在這一機制下,有價值的認知會在探索過程中被不斷篩選并逐步提升層級,而噪聲信息則會自然被淘汰。
這使得ML-Master 2.0即使在長時間運行中,也能夠保持穩(wěn)定、可控的科研節(jié)奏,而不會陷入「上下文爆炸」或「遺忘歷史經(jīng)驗」的困境。
ML-Master 2.0重登MLE-bench榜首
在OpenAI MLE-bench的系統(tǒng)評測中,ML-Master 2.0在完全無人工干預(yù)的條件下,基于國產(chǎn)Deepseek-V3.2-Speciale開源大模型,取得了56.44%的獎牌率,位列榜單第一,相較于Google等團隊的基于閉源模型的智能體提升28.3%。
并且ML-Master 2.0已經(jīng)開始在真實科研中發(fā)揮作用,參與協(xié)助理論計算物理以及具身智能等領(lǐng)域的前沿研究。
![]()
走向真正的自主AI科學(xué)家
ML-Master 2.0的優(yōu)異成果表明,通過將認知過程視為可積累、可遷移、可演化的資源,并以層次化方式對其進行管理,我們正在接近這樣一種智能體:
它不僅能完成一次任務(wù),而是能夠在長期探索中,真正成長為一名自主的AI科學(xué)家。
在全球AI4Science競逐加速的今天,我們很高興看到:
中國團隊,正在用中國的開源大模型,參與并引領(lǐng)這一關(guān)鍵范式的轉(zhuǎn)變。
此前,ML-Master的核心代碼已經(jīng)開源,研究者和工程師可以通過GitHub訪問并了解其整體設(shè)計與實現(xiàn)細節(jié)。
與此同時,ML-Master 2.0所代表的這一整套「面向真實科研的自主智能體能力」,也將以產(chǎn)品形態(tài)逐步開放。
該能力即將通過SciMaster平臺上線,面向機器學(xué)習(xí)與AI4Science場景提供更完整、更穩(wěn)定的使用體驗。
目前該功能開放了Waiting List階段,感興趣的研究者與工程團隊可以在SciMaster主頁通過「SciMaster的朋友圈」提前申請體驗資格。
![]()
項目地址:
https://github.com/sjtu-sai-agents/ML-Master
SciMaster主頁:
https://scimaster.bohrium.com/chat/
EigenAI主頁:
https://www.eigenai.com/
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
![]()





京公網(wǎng)安備 11011402013531號