欧美午夜性色大片在线观看_国产成人午夜电影网_91精品国产综合久久精品_污污片在线免费视频_日日干夜夜操s8_国产精品亚洲片在线播放_久久久久亚洲av无码专区_性欧美大战久久久久久久久_国产欧美在线观看视频_日韩国产中文字幕

超越谷歌，全球第一！上交AI科學(xué)家王者歸來，登頂OpenAI MLE-bench

IP屬地中國·北京 新智元 時間：2025-12-25 14:17:26

新智元報道
編輯：好困
剛剛，由SciMaster團隊推出的AI機器學(xué)習(xí)專家ML-Master 2.0，基于國產(chǎn)開源大模型DeepSeek，在OpenAI權(quán)威基準測試MLE-bench中一舉擊敗Google、meta、微軟等國際頂流，刷新全球SOTA，再次登頂！目前該功能已在SciMaster線上平臺開放waiting list，歡迎申請體驗。
從《三體》中時刻干擾基礎(chǔ)物理實驗的「智子」，到《2001太空漫游》里具備自主決策能力的HAL，再到阿西莫夫筆下具有推理與科學(xué)探索能力的機器人，人類對一個問題的想象由來已久：
如果智能體不再只是工具，而是能夠像科學(xué)家一樣，在復(fù)雜環(huán)境中長期探索、不斷修正假設(shè)，科學(xué)會發(fā)生什么變化？

很長一段時間里，這樣的設(shè)想更多停留在科學(xué)想象中；而隨著大模型能力的快速躍遷，它正逐漸演變?yōu)橐粋€正在被認真對待的現(xiàn)實技術(shù)命題。
越來越多研究者開始意識到，真正的分水嶺并不在于AI能否把題「答對」，而在于它能否像科研人員一樣，在長期不確定的探索過程中不斷修正方向、積累經(jīng)驗，并在反復(fù)試錯中推動知識本身向前演化。
Google DeepMind推出的AlphaEvolve，試圖讓AI在長時間的演化過程中不斷修正自身策略；
OpenAI提出的Frontier Science，明確將衡量重點放在AI是否能夠在真實科研任務(wù)中持續(xù)工作、反復(fù)迭代；
美國甚至啟動了號稱「AI曼哈頓計劃」的Genesis Mission，嘗試將AI系統(tǒng)性地嵌入國家級科學(xué)研究體系之中。

這些探索路徑雖不相同，卻共同指向一個核心共識：
真正推動科學(xué)進步的AI，不是只會在競賽中給出標準答案，而是能夠在真實科研環(huán)境中，面對超長程科研任務(wù)時，經(jīng)受長時間試錯、不斷自我演化，并在持續(xù)迭代中逐步演化出可靠能力。
正是在這樣的背景下，AI4AI（AIfor AI）逐漸成為一個至關(guān)重要的方向：
它既是AI參與科學(xué)研究的重要形態(tài)之一，更直接關(guān)系到AI能否通過自身實踐推動能力增長，從而支撐更長期、更復(fù)雜的科研任務(wù)。
因而，OpenAI所提出的MLE-bench中所聚焦的機器學(xué)習(xí)工程（Machine LearningEngineering, MLE）任務(wù)，恰恰成為AI4AI場景下極為貼切的研究對象。
相比理想化的答題類型任務(wù)，真實的MLE科研往往需要在十幾個甚至數(shù)十小時內(nèi)，持續(xù)經(jīng)歷實驗設(shè)計、代碼實現(xiàn)、調(diào)試修正與結(jié)果分析等完整閉環(huán)，其過程高度依賴長期試錯與經(jīng)驗積累。
這也使得MLE-bench成為少數(shù)能夠真實反映AI是否具備長期科研演化能力的評測基準之一。

由上海交通大學(xué)人工智能學(xué)院、上海算法創(chuàng)新研究院、深勢科技組成的SciMaster團隊推出的面向真實機器學(xué)習(xí)科研任務(wù)的自主智能體ML-Master 2.0，就是這樣一個專門為「機器學(xué)習(xí)工程」而生的AI4AI（AI for AI）系統(tǒng)。
結(jié)合EigenAI提供的穩(wěn)定高性能AI基礎(chǔ)設(shè)施，該智能體基于國產(chǎn)大模型DeepSeek-V3.2-Speciale，在MLE-bench上擊敗Google，meta，Microsoft等團隊構(gòu)建的一系列智能體，取得全球第一的成績。
更重要的是，它已經(jīng)在多家科技公司與實驗室中落地，用于具身智能機器人訓(xùn)練、理論物理模擬與發(fā)現(xiàn)等前沿場景。

這一結(jié)果不僅是一項榜單排名，更清晰地表明：
在面向真實科研任務(wù)、強調(diào)長期演化與工程閉環(huán)的自主智能體方向上，中國研究者已經(jīng)具備與國際頂尖團隊同臺競爭、并實現(xiàn)領(lǐng)先突破的能力。
ML-Master 2.0
為真實機器學(xué)習(xí)科研而生的自主智能體
在真實的機器學(xué)習(xí)工程（Machine Learning Engineering, MLE）中，科研并不是一次性「把題做對」。
相反，它往往是一個漫長而反復(fù)的過程：
設(shè)定實驗假設(shè)、編寫與修改代碼、定位bug、分析結(jié)果、推翻假設(shè)、再重新開始。這樣的循環(huán)，可能持續(xù)幾個，甚至數(shù)十個小時。
ML-Master 2.0正是圍繞這一真實科研場景被系統(tǒng)性設(shè)計出來的。
與許多只關(guān)注短程推理或單次任務(wù)成功的智能體不同，它從設(shè)計之初就假定：
沒有人類在旁實時糾錯；
實驗失敗是常態(tài)而非例外；
真正有價值的能力，來自長期反復(fù)試錯中的積累。
在保留原有ML-Master探索—利用閉環(huán)的基礎(chǔ)上，ML-Master 2.0進一步著重在長時間的探索中保持研究方向不跑偏，并且將失敗轉(zhuǎn)化為可復(fù)用的經(jīng)驗的能力。
這也直接引出了其關(guān)鍵設(shè)計理念之一：
科研型智能體必須具備長期認知積累的能力，而不是將上下文視為一次性消耗的推理材料。
超長程自主：能跑代碼，更能長期思考
在ML-Master 2.0的設(shè)計中，這種能力被明確概括為一個核心概念：
超長程自主（Ultra-Long-Horizon Autonomy）
在MLE場景下，真正的自主性并不等價于更強的代碼生成能力，而體現(xiàn)在系統(tǒng)是否能夠：
在長達數(shù)十小時的探索中持續(xù)圍繞同一科研目標展開；
從大量失敗實驗中總結(jié)規(guī)律，而不是簡單重復(fù)嘗試；
主動避開已經(jīng)驗證無效的技術(shù)路徑；
將一次任務(wù)中獲得的經(jīng)驗遷移到后續(xù)的新任務(wù)中。
換句話說，問題的關(guān)鍵并不在于「上下文夠不夠長」，而在于：
這些上下文是否能夠被持續(xù)整理、篩選，并真正沉淀為可復(fù)用的認知資產(chǎn)。
以「認知積累」為核心的ML-Master 2.0架構(gòu)
基于上述思考，ML-Master 2.0構(gòu)建了一套圍繞長期科研探索的整體技術(shù)框架。
在這一架構(gòu)中，上下文不再被視為「用完即丟」的推理輸入，而是被建模為一種具有生命周期的認知資產(chǎn)。
隨著科研過程不斷推進，系統(tǒng)內(nèi)部的認知逐步發(fā)生分化：
Experience（經(jīng)驗）：直接服務(wù)于當前決策的即時執(zhí)行軌跡；
Knowledge（知識）：在同一任務(wù)中多次驗證后形成的穩(wěn)定結(jié)論；
Wisdom（智慧）：能夠跨任務(wù)復(fù)用的高層策略與認知原型。
為了系統(tǒng)性地管理這一演化過程，ML-Master 2.0引入了層次化認知緩存（Hierarchical Cognitive Caching, HCC）機制。

層次化認知緩存：為長程科研提供記憶支點
從直觀層面看，層次化認知緩存并不是簡單地「把上下文存得更多」，而是讓不同時間尺度的認知各司其職：
即時演化的經(jīng)驗，用于保證當前探索過程的連續(xù)性；
階段性穩(wěn)定的知識，在同一科研任務(wù)中被反復(fù)調(diào)用；
跨任務(wù)沉淀的先驗智慧，為新問題提供高質(zhì)量起點。
在這一機制下，有價值的認知會在探索過程中被不斷篩選并逐步提升層級，而噪聲信息則會自然被淘汰。
這使得ML-Master 2.0即使在長時間運行中，也能夠保持穩(wěn)定、可控的科研節(jié)奏，而不會陷入「上下文爆炸」或「遺忘歷史經(jīng)驗」的困境。
ML-Master 2.0重登MLE-bench榜首
在OpenAI MLE-bench的系統(tǒng)評測中，ML-Master 2.0在完全無人工干預(yù)的條件下，基于國產(chǎn)Deepseek-V3.2-Speciale開源大模型，取得了56.44%的獎牌率，位列榜單第一，相較于Google等團隊的基于閉源模型的智能體提升28.3%。
并且ML-Master 2.0已經(jīng)開始在真實科研中發(fā)揮作用，參與協(xié)助理論計算物理以及具身智能等領(lǐng)域的前沿研究。

走向真正的自主AI科學(xué)家
ML-Master 2.0的優(yōu)異成果表明，通過將認知過程視為可積累、可遷移、可演化的資源，并以層次化方式對其進行管理，我們正在接近這樣一種智能體：
它不僅能完成一次任務(wù)，而是能夠在長期探索中，真正成長為一名自主的AI科學(xué)家。
在全球AI4Science競逐加速的今天，我們很高興看到：
中國團隊，正在用中國的開源大模型，參與并引領(lǐng)這一關(guān)鍵范式的轉(zhuǎn)變。
此前，ML-Master的核心代碼已經(jīng)開源，研究者和工程師可以通過GitHub訪問并了解其整體設(shè)計與實現(xiàn)細節(jié)。
與此同時，ML-Master 2.0所代表的這一整套「面向真實科研的自主智能體能力」，也將以產(chǎn)品形態(tài)逐步開放。
該能力即將通過SciMaster平臺上線，面向機器學(xué)習(xí)與AI4Science場景提供更完整、更穩(wěn)定的使用體驗。
目前該功能開放了Waiting List階段，感興趣的研究者與工程團隊可以在SciMaster主頁通過「SciMaster的朋友圈」提前申請體驗資格。

項目地址：
https://github.com/sjtu-sai-agents/ML-Master
SciMaster主頁：
https://scimaster.bohrium.com/chat/
EigenAI主頁：
https://www.eigenai.com/
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標，鎖定新智元極速推送！

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

揭秘Agent落地困局！93%企業(yè)項目卡在POC到生產(chǎn)最后一公里

最新！AI再迎「十字路口」，林達華演講曝光多模態(tài)底層路線圖

基層用AI寫總結(jié)材料，可行嗎？

京東物流首個海外智狼倉在英國投用

HighPoint推首款獨立PCIe 5.0×16 CopprLink外接適配器7634D

全球首款無需遙控智能機器狗，維他動力“大頭BoBo”將開啟公測

全站最新

揭秘Agent落地困局！93%企業(yè)項目卡在POC到生產(chǎn)最后一公里

最新！AI再迎「十字路口」，林達華演講曝光多模態(tài)底層路線圖

基層用AI寫總結(jié)材料，可行嗎？

京東物流首個海外智狼倉在英國投用

熱門推薦

揭秘Agent落地困局！93%企業(yè)項目卡在POC到生產(chǎn)最后一公里

最新！AI再迎「十字路口」，林達華演講曝光多模態(tài)底層路線圖

基層用AI寫總結(jié)材料，可行嗎？

京東物流首個海外智狼倉在英國投用

HighPoint推首款獨立PCIe 5.0×16 CopprLink外接適配器7634D

全球首款無需遙控智能機器狗，維他動力“大頭BoBo”將開啟公測

日本宣布發(fā)射失敗的導(dǎo)航衛(wèi)星“引路5號”已損失

昆侖萬維的AI“大航海”

“單一來源采購”！上海微電子1.1億中標科技部采購光刻機項目

坪山打造“場景森林”：以開放場景培育AI與鴻蒙開源

美媒為何熱炒"AI泡沫"？這三件事讓他們擔心

超700款生成式人工智能大模型產(chǎn)品完成備案

雙獎加冕！新東方比鄰連獲權(quán)威認證，以AI創(chuàng)新領(lǐng)跑國際中文教育新征程

全國中小學(xué)人工智能教育聯(lián)盟成立點貓科技成為首批捐贈企業(yè)

AI手機豆包化，榮耀能否講出新故事