無需再訓(xùn)練微調(diào)，一個輔助系統(tǒng)讓GPT-5.2準(zhǔn)確率飆到創(chuàng)紀(jì)錄的75%

IP屬地中國·北京 機器之心Pro 時間：2025-12-25 16:13:17

編輯 | 杜偉、陳陳
什么？決定 AI 上限的已不再是底座模型，而是外圍的「推理編排」（Orchestration）。
在 LLM 完全不變的前提下，僅靠一套 Agentic System，就能讓 AI 的智力表現(xiàn)原地暴漲一截。
在看了「AI 推理和自我改進(jìn)系統(tǒng)」初創(chuàng)公司 Poetiq 的最新評測之后，有人得出了這樣的結(jié)論。

部分截圖
近日，Poetiq 表示其使用 ARC-AGI-2 測試集，在他們的系統(tǒng)上（稱為 meta-system）運行了 GPT-5.2 X-High。該測試集通常被用來衡量當(dāng)前 SOTA 模型在復(fù)雜抽象推理任務(wù)上的表現(xiàn)。
結(jié)果顯示，在相同的 Poetiq 測試平臺上，GPT?5.2 X?High 在完整的 PUBLIC-eval 數(shù)據(jù)集上的成績高達(dá) 75%，這比之前的 SOTA 高出了約 15%，同時每個問題的成本低于 8 美元。
這里的 PUBLIC-eval 是 ARC 測試的一部分，前者一般包含基礎(chǔ)推理任務(wù)和標(biāo)準(zhǔn)的 NLP、數(shù)學(xué)推理測試，適合廣泛的模型評測，數(shù)據(jù)集更為公開、標(biāo)準(zhǔn)；后者包含更多復(fù)雜且富有挑戰(zhàn)性的推理問題，考察模型的抽象推理、常識推理、創(chuàng)新能力等，是針對高水平模型的推理極限測試。

下圖展示了各個 SOTA 模型在 PUBLIC-eval 數(shù)據(jù)集上的成績分布：

Poetiq 還特別強調(diào)了，其沒有對 GPT-5.2 進(jìn)行任何再訓(xùn)練或模型特定的優(yōu)化。
在如此短的時間內(nèi)，相較于 Poetiq 之前在 PUBLIC-eval 數(shù)據(jù)集上測試的其他模型，GPT-5.2 在準(zhǔn)確率和價格方面實現(xiàn)了顯著改進(jìn)。
Poetiq 進(jìn)一步做出設(shè)想：如果在 PUBLIC-eval 測試中表現(xiàn)好的規(guī)律能夠延續(xù)到 ARC Prize 官方的 SEMI-PRIVATE 測試中，那么「GPT-5.2 X-High + Poetiq」會比以往任何系統(tǒng)配置都更強、更好。
ARC Prize 總裁 Greg Kamradt 表示，「很高興看到 Poetiq 發(fā)布 GPT-5.2 X-High 的結(jié)果。如果這個成績能保持下去，他們的系統(tǒng)看起來能很好地處理模型交換。不過，在 OpenAI API 的基礎(chǔ)設(shè)施問題解決之前，結(jié)果還沒有得到完全驗證。」
這里的模型交換指的是：系統(tǒng)通過切換不同的模型來應(yīng)對不同的任務(wù)需求，而無需對系統(tǒng)或模型進(jìn)行大規(guī)模的調(diào)整或重新訓(xùn)練。

OpenAI 總裁 Greg Brockman 也轉(zhuǎn)推表示：GPT-5.2 在 ARC-AGI-2 上超越人類基準(zhǔn)成績。

對于全新的測試結(jié)果，評論區(qū)提出了更多問題，比如「每個任務(wù)平均需要多長時間」。
Poetiq 回復(fù)稱，「我們現(xiàn)在沒有專門收集這些統(tǒng)計數(shù)據(jù)，最簡單的問題大概在 8 到 10 分鐘后就能完成，而最難的問題必須在 12 小時之前終止，以保持在時間限制內(nèi)。所以，未來肯定還有改進(jìn)的空間。」

還有人指出「大部分改進(jìn)似乎來自于測試框架和協(xié)調(diào)機制，而不是任何模型特定的調(diào)優(yōu)。沒有訓(xùn)練變更的情況下，ARC-AGI-2 上提高了大約 15%，這表明僅在搜索、路由和終止邏輯方面就還有很大的提升空間」。
可問題是：為什么在這個設(shè)置中，X-High 每個任務(wù)的成本比 High 還要低？是因為它通過更早找到正確的解決方案而更快收斂，還是因為測試框架更積極地修剪了無效的推理過程？
對于這個問題，Poetiq 肯定了「X-High 只是比 High 更快地收斂到正確的答案」這一觀點。

6 人團(tuán)隊打造 meta-system 系統(tǒng)
Poetiq 是一支由 6 位研究員和工程師組成的團(tuán)隊，有多位核心成員來自 Google DeepMind 。
Ian Fischer (聯(lián)合創(chuàng)始人 & 聯(lián)席 CEO): 曾是 Google DeepMind 的資深研究員；Shumeet Baluja (聯(lián)合創(chuàng)始人 & 聯(lián)席 CEO): 同樣出身于 Google/DeepMind 的資深專家。

Poetiq 能夠取得上述成績，關(guān)鍵在于其構(gòu)建的meta-system（元系統(tǒng)）。
meta-system 不依賴特定的大模型，可以與任何前沿模型配合使用（如 Gemini 3、GPT-5.1、Grok 等），而不是訓(xùn)練或微調(diào)模型本身，這意味著它能隨著新模型發(fā)布快速適配并提升性能。
Poetiq meta-system 構(gòu)建了一種迭代式推理過程，其與傳統(tǒng)一次性生成答案的方法不同，有兩個主要機制：
迭代式的問題求解循環(huán)：系統(tǒng)并不是只向模型提出一次問題，而是利用大語言模型（LLM）生成一個潛在的解決方案，隨后接收反饋、分析反饋，并再次調(diào)用 LLM 對方案進(jìn)行改進(jìn)。這種多步驟、自我改進(jìn)的過程，使系統(tǒng)能夠逐步構(gòu)建并不斷完善最終答案。自我審計（Self-Auditing）：系統(tǒng)能夠自主審計自身的運行進(jìn)度，并自行判斷何時已經(jīng)獲得足夠的信息、當(dāng)前解決方案是否令人滿意，從而決定終止整個過程。這種自我監(jiān)控機制對于避免不必要的計算浪費、有效降低整體成本至關(guān)重要。
Poetiq 還特別強調(diào)，他們所有 meta-system 的適配工作是在新模型發(fā)布前完成的，而且系統(tǒng)從未直接接觸過 ARC-AGI 任務(wù)集，但依然在多個不同模型上取得跨版本、跨模型族的性能提升，說明 meta-system 對 reasoning 策略具有良好的泛化能力。
正是這種靈活、強大且具備遞歸能力的架構(gòu)，使得 Poetiq 這樣一支小規(guī)模團(tuán)隊，能夠在極短時間內(nèi)取得一系列最先進(jìn)（SOTA）的成果。
對于這個 meta-system，有人認(rèn)為「太棒了。在模型之上構(gòu)建智能，而不是在模型內(nèi)部構(gòu)建，意味著可以在幾個小時內(nèi)適配新模型，非常高明。適配開源模型，并且成功遷移到新的封閉模型，這表明捕捉到的東西是推理過程本身的基本規(guī)律，而不是模型特定的怪癖。」

參考鏈接：
https://poetiq.ai/posts/arcagi_verified/

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

日本宣布發(fā)射失敗的導(dǎo)航衛(wèi)星“引路5號”已損失

昆侖萬維的AI“大航海”

雙獎加冕！新東方比鄰連獲權(quán)威認(rèn)證，以AI創(chuàng)新領(lǐng)跑國際中文教育新征程

AI手機豆包化，榮耀能否講出新故事

京東宣布加薪！今年年終獎投入同比漲幅超70%，采銷平均25薪，上不封頂

打破2D視覺枷鎖，全新端到端框架GeoVLA重構(gòu)機器人空間感知

全站最新

日本宣布發(fā)射失敗的導(dǎo)航衛(wèi)星“引路5號”已損失

昆侖萬維的AI“大航海”

雙獎加冕！新東方比鄰連獲權(quán)威認(rèn)證，以AI創(chuàng)新領(lǐng)跑國際中文教育新征程

AI手機豆包化，榮耀能否講出新故事

熱門推薦

日本宣布發(fā)射失敗的導(dǎo)航衛(wèi)星“引路5號”已損失

昆侖萬維的AI“大航海”

“單一來源采購”！上海微電子1.1億中標(biāo)科技部采購光刻機項目

坪山打造“場景森林”：以開放場景培育AI與鴻蒙開源

美媒為何熱炒"AI泡沫"？這三件事讓他們擔(dān)心

超700款生成式人工智能大模型產(chǎn)品完成備案

雙獎加冕！新東方比鄰連獲權(quán)威認(rèn)證，以AI創(chuàng)新領(lǐng)跑國際中文教育新征程

全國中小學(xué)人工智能教育聯(lián)盟成立點貓科技成為首批捐贈企業(yè)

AI手機豆包化，榮耀能否講出新故事

二〇二五，科技創(chuàng)新再攀高峰

京東宣布加薪！今年年終獎投入同比漲幅超70%，采銷平均25薪，上不封頂

打破2D視覺枷鎖，全新端到端框架GeoVLA重構(gòu)機器人空間感知

京東：采銷平均25薪，上不封頂

日本的“AI大業(yè)”全靠瘋狂砸錢？

SNIA啟動EDSFF E1.A規(guī)范制定：將數(shù)據(jù)中心SSD形態(tài)帶入汽車