欧美午夜性色大片在线观看_国产成人午夜电影网_91精品国产综合久久精品_污污片在线免费视频_日日干夜夜操s8_国产精品亚洲片在线播放_久久久久亚洲av无码专区_性欧美大战久久久久久久久_国产欧美在线观看视频_日韩国产中文字幕

當(dāng)前位置: 首頁 ? 資訊 ? 新科技 ? 正文

無需再訓(xùn)練微調(diào),一個輔助系統(tǒng)讓GPT-5.2準(zhǔn)確率飆到創(chuàng)紀(jì)錄的75%

IP屬地 中國·北京 機器之心Pro 時間:2025-12-25 16:13:17



編輯 | 杜偉、陳陳

什么?決定 AI 上限的已不再是底座模型,而是外圍的「推理編排」(Orchestration)。

在 LLM 完全不變的前提下,僅靠一套 Agentic System,就能讓 AI 的智力表現(xiàn)原地暴漲一截。

在看了「AI 推理和自我改進(jìn)系統(tǒng)」初創(chuàng)公司 Poetiq 的最新評測之后,有人得出了這樣的結(jié)論。



部分截圖

近日,Poetiq 表示其使用 ARC-AGI-2 測試集,在他們的系統(tǒng)上(稱為 meta-system)運行了 GPT-5.2 X-High。該測試集通常被用來衡量當(dāng)前 SOTA 模型在復(fù)雜抽象推理任務(wù)上的表現(xiàn)。

結(jié)果顯示,在相同的 Poetiq 測試平臺上,GPT?5.2 X?High 在完整的 PUBLIC-eval 數(shù)據(jù)集上的成績高達(dá) 75%,這比之前的 SOTA 高出了約 15%,同時每個問題的成本低于 8 美元。

這里的 PUBLIC-eval 是 ARC 測試的一部分,前者一般包含基礎(chǔ)推理任務(wù)和標(biāo)準(zhǔn)的 NLP、數(shù)學(xué)推理測試,適合廣泛的模型評測,數(shù)據(jù)集更為公開、標(biāo)準(zhǔn);后者包含更多復(fù)雜且富有挑戰(zhàn)性的推理問題,考察模型的抽象推理、常識推理、創(chuàng)新能力等,是針對高水平模型的推理極限測試。



下圖展示了各個 SOTA 模型在 PUBLIC-eval 數(shù)據(jù)集上的成績分布:



Poetiq 還特別強調(diào)了,其沒有對 GPT-5.2 進(jìn)行任何再訓(xùn)練或模型特定的優(yōu)化。

在如此短的時間內(nèi),相較于 Poetiq 之前在 PUBLIC-eval 數(shù)據(jù)集上測試的其他模型,GPT-5.2 在準(zhǔn)確率和價格方面實現(xiàn)了顯著改進(jìn)。

Poetiq 進(jìn)一步做出設(shè)想:如果在 PUBLIC-eval 測試中表現(xiàn)好的規(guī)律能夠延續(xù)到 ARC Prize 官方的 SEMI-PRIVATE 測試中,那么「GPT-5.2 X-High + Poetiq」會比以往任何系統(tǒng)配置都更強、更好。

ARC Prize 總裁 Greg Kamradt 表示,「很高興看到 Poetiq 發(fā)布 GPT-5.2 X-High 的結(jié)果。如果這個成績能保持下去,他們的系統(tǒng)看起來能很好地處理模型交換。不過,在 OpenAI API 的基礎(chǔ)設(shè)施問題解決之前,結(jié)果還沒有得到完全驗證。」

這里的模型交換指的是:系統(tǒng)通過切換不同的模型來應(yīng)對不同的任務(wù)需求,而無需對系統(tǒng)或模型進(jìn)行大規(guī)模的調(diào)整或重新訓(xùn)練



OpenAI 總裁 Greg Brockman 也轉(zhuǎn)推表示:GPT-5.2 在 ARC-AGI-2 上超越人類基準(zhǔn)成績。



對于全新的測試結(jié)果,評論區(qū)提出了更多問題,比如「每個任務(wù)平均需要多長時間」。

Poetiq 回復(fù)稱,「我們現(xiàn)在沒有專門收集這些統(tǒng)計數(shù)據(jù),最簡單的問題大概在 8 到 10 分鐘后就能完成,而最難的問題必須在 12 小時之前終止,以保持在時間限制內(nèi)。所以,未來肯定還有改進(jìn)的空間。」



還有人指出「大部分改進(jìn)似乎來自于測試框架和協(xié)調(diào)機制,而不是任何模型特定的調(diào)優(yōu)。沒有訓(xùn)練變更的情況下,ARC-AGI-2 上提高了大約 15%,這表明僅在搜索、路由和終止邏輯方面就還有很大的提升空間」。

可問題是:為什么在這個設(shè)置中,X-High 每個任務(wù)的成本比 High 還要低?是因為它通過更早找到正確的解決方案而更快收斂,還是因為測試框架更積極地修剪了無效的推理過程?

對于這個問題,Poetiq 肯定了「X-High 只是比 High 更快地收斂到正確的答案」這一觀點。



6 人團(tuán)隊打造 meta-system 系統(tǒng)

Poetiq 是一支由 6 位研究員和工程師組成的團(tuán)隊,有多位核心成員來自 Google DeepMind 。

Ian Fischer (聯(lián)合創(chuàng)始人 & 聯(lián)席 CEO): 曾是 Google DeepMind 的資深研究員;Shumeet Baluja (聯(lián)合創(chuàng)始人 & 聯(lián)席 CEO): 同樣出身于 Google/DeepMind 的資深專家。



Poetiq 能夠取得上述成績,關(guān)鍵在于其構(gòu)建的meta-system(元系統(tǒng))

meta-system 不依賴特定的大模型,可以與任何前沿模型配合使用(如 Gemini 3、GPT-5.1、Grok 等),而不是訓(xùn)練或微調(diào)模型本身,這意味著它能隨著新模型發(fā)布快速適配并提升性能。

Poetiq meta-system 構(gòu)建了一種迭代式推理過程,其與傳統(tǒng)一次性生成答案的方法不同,有兩個主要機制:

迭代式的問題求解循環(huán):系統(tǒng)并不是只向模型提出一次問題,而是利用大語言模型(LLM)生成一個潛在的解決方案,隨后接收反饋、分析反饋,并再次調(diào)用 LLM 對方案進(jìn)行改進(jìn)。這種多步驟、自我改進(jìn)的過程,使系統(tǒng)能夠逐步構(gòu)建并不斷完善最終答案。自我審計(Self-Auditing):系統(tǒng)能夠自主審計自身的運行進(jìn)度,并自行判斷何時已經(jīng)獲得足夠的信息、當(dāng)前解決方案是否令人滿意,從而決定終止整個過程。這種自我監(jiān)控機制對于避免不必要的計算浪費、有效降低整體成本至關(guān)重要。

Poetiq 還特別強調(diào),他們所有 meta-system 的適配工作是在新模型發(fā)布前完成的,而且系統(tǒng)從未直接接觸過 ARC-AGI 任務(wù)集,但依然在多個不同模型上取得跨版本、跨模型族的性能提升,說明 meta-system 對 reasoning 策略具有良好的泛化能力。

正是這種靈活、強大且具備遞歸能力的架構(gòu),使得 Poetiq 這樣一支小規(guī)模團(tuán)隊,能夠在極短時間內(nèi)取得一系列最先進(jìn)(SOTA)的成果。

對于這個 meta-system,有人認(rèn)為「太棒了。在模型之上構(gòu)建智能,而不是在模型內(nèi)部構(gòu)建,意味著可以在幾個小時內(nèi)適配新模型,非常高明。適配開源模型,并且成功遷移到新的封閉模型,這表明捕捉到的東西是推理過程本身的基本規(guī)律,而不是模型特定的怪癖。」



參考鏈接:
https://poetiq.ai/posts/arcagi_verified/

免責(zé)聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

欧美3p在线观看| 奇米四色…亚洲| 1769在线观看| 国产一级黄色大片| 日韩av无码中文字幕| 久久久久狠狠高潮亚洲精品| 91丝袜脚交足在线播放| 精品国产91久久久久久久妲己 | 免费影视亚洲| 加勒比一区二区三区| 亚洲 小说区 图片区 都市| 五月天婷婷色综合| 性色av浪潮av| 无码毛片aaa在线| 亚洲一区二区三区乱码aⅴ蜜桃女| 国产午夜精品一区二区三区 | 国产成人精品网址| 欧美日韩国产高清| 国产在线播放精品| 国产伦精品一区二区三区视频金莲 | 久久久久久久久久婷婷| 日韩欧美一级精品久久| 亚洲成人手机在线| 久久免费电影网| 免费高清在线视频一区·| 国产精品久久久久久影院8一贰佰| 亚洲三级电影| 97蜜桃久久| 成人在线观看一区| 国产免费福利网站| 同房视频网站| 视频一区二区精品的福利| 精品毛片在线观看| 色av性av丰满av| 99国产精品无码| 捆绑裸体绳奴bdsm亚洲| 日韩欧美亚洲另类| 日韩无套无码精品| 免费人成在线观看视频播放| 青青影院一区二区三区四区| 91pron在线| 国产精品扒开腿做爽爽爽视频| 另类色图亚洲色图| 一个色综合导航| 亚洲国产成人精品一区二区| 欧美高清视频www夜色资源网| 亚洲成av人片一区二区梦乃| 亚洲人成精品久久久久| 久久久五月婷婷| 国产91精品入口| 九一九一国产精品| 玖玖国产精品视频| 国内自拍视频一区二区三区| 成人黄色av| 九九精品在线| 99亚洲乱人伦aⅴ精品| 国产91欧美| 欧美日韩国产v| zzzwww在线看片免费| 国产在线xxx| av片在线观看网站| 国产在线看片| 污视频在线免费观看网站| 免费av网站在线看| 超碰在线观看免费版| 成人在线观看免费网站| 操你啦视频在线| 看女生喷水的网站在线观看| 乱人伦中文视频在线| 黄色av电影在线观看| 国产盗摄在线观看| 日本动漫同人动漫在线观看| 黄页在线观看免费| 2021中文字幕在线| 午夜影院在线播放| 久久人体大尺度| 91亚洲精品| 成年网站免费观看| 日日干夜夜爽| 成人免费视频77777| 国产黄色网页| 麻豆影视在线观看| 国产在线观看高清视频| 巨大荫蒂视频欧美另类大| 日韩av激情| 欧美1级2级| 午夜视频在线观看精品中文| 日韩深夜影院| 亚洲天堂免费| 日韩激情视频在线观看| 国产乱理伦片在线观看夜一区| 成年人国产精品| 亚洲欧洲日韩女同| 91精品福利在线| 精品1区2区在线观看| 这里只有精品丝袜| 77777少妇光屁股久久一区| 国产免费亚洲高清| 麻豆传媒一区| 国产欧美精品aaaaaa片| 色www免费视频| 日本免费福利视频| 国产精品变态另类虐交| 亚洲综合免费视频| 骚虎黄色影院| 午夜爽爽爽男女免费观看影院| 亚洲成人影院在线观看| 成人免费一区二区三区牛牛| 国产亚洲高清在线观看| 成人在线丰满少妇av| 亚洲美女一区| gogo大胆日本视频一区| 亚洲色图.com| 欧美精品色综合| 日韩天堂在线视频| 国产剧情久久久久久| 日韩精品欧美专区| 九一精品在线观看| 亚洲av成人无码久久精品| 久久久久久久久久久久久av| 人妻一区二区三区四区| 免费免费啪视频在线观播放| 在线中文字幕资源| 筱崎爱全乳无删减在线观看| 精品综合久久88少妇激情| 一区三区视频| 久久久久国产精品免费免费搜索| 一本大道综合伊人精品热热| 亚洲天堂av网| 国产原创欧美精品| 国产乱子伦精品无码专区| 9.1在线观看免费| 国产免费观看av| 韩日三级av| 免费在线黄色网址| 四虎精品在线观看| 一区二区亚洲精品| 中文乱码免费一区二区| 日韩一级免费观看| 8x拔播拔播x8国产精品| 日本最新一区二区三区视频观看| 日韩一级免费片| 日本少妇xxxx动漫| 欧美性xxxx交| 韩日视频在线| 久久天堂久久| 快she精品国产999| 亚洲嫩草精品久久| 亚洲精品永久免费精品| 成人有码在线视频| 中国丰满人妻videoshd| 美国美女黄色片| 国产chinasex对白videos麻豆| 黄色毛片免费| 性xxxfreexxxx性欧美| 欧美美乳视频| 国产91精品在线观看| 欧美日韩一区二区三区高清| 欧美国产激情18| 亚洲 欧洲 日韩| 亚洲黄色免费视频| 免费看黄网站在线观看| 在线中文字幕资源| 激情小说亚洲色图| 成人丝袜18视频在线观看| 欧美日韩亚洲另类| 日本久久久久久| 久青草视频在线播放| 青青草激情视频| 国产一级片网站| av有码在线观看| 极品av少妇一区二区| 亚洲激情图片qvod| 欧美刺激性大交免费视频| 亚洲一区在线免费| 男人的午夜天堂| 99久久免费精品国产免费| 国产精品国精产品一二| 国模大胆一区二区三区| 亚洲综合av网| 97av在线视频| 亚洲精品乱码久久久久久自慰| 亚欧视频在线观看| 能看av的网址| 精品国产三区在线| 成人毛片在线观看| 亚洲精品视频在线播放| 日本在线播放不卡| 女教师淫辱の教室蜜臀av软件| 欧美无遮挡国产欧美另类| 伊人222成人综合网| 亚洲激情网址| 色美美综合视频| 国产日产久久高清欧美一区| 日本网站在线看| 二区三区在线视频| 综合久久2o19| 久久婷婷麻豆| 日韩欧美中文字幕一区| 国产精品区一区| 级毛片内射视频| 国产极品美女到高潮| av高清不卡| 国产剧情在线观看一区二区| 欧美精品一区二区三区视频| 日韩av电影免费在线| 久久嫩草捆绑紧缚| 18成人免费观看视频漫画| 国产成人tv| 亚洲美女区一区| 日韩av不卡电影| 亚洲AV无码久久精品国产一区| 性xxxx搡xxxxx搡欧美| 国产www视频在线观看| 免费成人av资源网| 亚洲精品99久久久久| 免费观看黄色的网站| 中文字幕第四页| 免费黄色在线视频网站| 中国女人久久久| 337p日本欧洲亚洲大胆精品| 最新精品视频| 日本黄色中文字幕| 国产精品一区二区婷婷| 国产精品日韩欧美一区| 日韩一区二区三区在线| 亚洲小说欧美另类激情| 91精品中文字幕| 国产福利在线免费观看| 不卡一区在线观看| 欧美激情一区二区三区高清视频 | av资源站久久亚洲| 五月婷婷综合激情网| 性一爱一乱一交一视频| 亚洲综合五月| 欧美一区二区三区的| 天天综合中文字幕| 又污又黄的网站| av小说在线播放| 91蜜桃在线免费视频| 欧美在线观看网址综合| 丰满少妇高潮一区二区| 国产乱妇乱子| 在线日韩av| 亚洲男人的天堂在线| 一区二区在线播放视频| 久热中文字幕精品视频在线| 精品国产一区二区三区成人影院| 亚洲成人免费看| 欧美精品亚洲| 国产视频第二页| 成人啊v在线| 18成人在线观看| 国产综合欧美在线看| 无码任你躁久久久久久久| 国产第一页在线| 国产精品第一页第二页第三页| 99超碰麻豆| 久久久久精彩视频| 亚洲欧美韩国| 亚洲人成网站精品片在线观看| 国产综合欧美在线看| 在线免费看毛片| 最新日韩一区| 午夜国产精品一区| 在线观看欧美一区| 亚洲区小说区图片区| 精品按摩偷拍| 欧美岛国在线观看| 日本高清久久久| 成人av小说网| 久久精品欧洲| 91国内在线视频| 久久精品国产亚洲av香蕉| 视频在线这里都是精品| 国产精品视频线看| 日韩高清专区| 四虎中文字幕| 欧美激情欧美| 精品久久久999| 18啪啪污污免费网站| 自拍视频在线网| 91一区二区三区在线观看| 99视频在线播放| 国产黄色av网站| 免费看久久久| 亚洲女人天堂成人av在线| 影音先锋黄色资源| jizz视频在线观看| 国产欧美一区二区精品仙草咪| 久久99欧美| 天天综合网在线| 日韩久久电影| 久久精品国产精品| 婷婷激情四射网| 蜜桃麻豆av在线| 一本大道综合伊人精品热热 | 91丨九色丨国产在线| 在线观看免费视频a| 一本一道久久a久久| 日韩一区二区在线播放| 精品一区二区三区四区五区六区| 日色在线视频| 国产精品午夜在线| 国产高清免费在线| 你懂的免费视频| 久久影院亚洲| 国产精品综合网站| 精品人妻一区二区三区三区四区 | 欧美性xxxx极品高清hd直播| 久久精品午夜福利| 一级免费视频| 超碰这里只有精品| 在线亚洲一区观看| 亚洲美女性囗交| 香蕉影院在线| 国产精品久久精品日日| 中文字幕色一区二区| 黄色大片免费看| 黄色资源网久久资源365| 国产精品国产精品| 久热中文字幕在线精品首页| 午夜综合激情| 亚洲最大av在线| 国产88在线观看入口| 亚洲人体偷拍| 国产欧美亚洲精品| 欧美少妇bbw| 欧美不卡高清| 欧美极品xxxx| 黄色片中文字幕| 久久不见久久见中文字幕免费| 欧美大成色www永久网站婷| 国产免费a视频| 久草在线成人| 欧美激情欧美激情在线五月| 亚洲精品91天天久久人人| 欧美精品系列| 51色欧美片视频在线观看| 国产特级黄色片| 欧美二区不卡| 成人久久一区二区三区| 亚洲色图图片专区| 久久性色av| 久久99九九| a级免费观看| 久久久久高清精品| 人妻av中文系列| 日本午夜在线| 精品久久久在线观看| 女同性恋一区二区三区| 中文不卡1区2区3区| 亚洲国产精品人人爽夜夜爽| 青草草在线视频| 欧美一二区在线观看| 欧洲精品久久久| 久热中文字幕在线| 久久国产精品99久久久久久老狼| 精品国产中文字幕| 天天做日日爱夜夜爽| 国产精品久久久久久久久图文区 | 伊人久久婷婷| 精品伦理一区二区三区| www黄色在线观看视频| 97se亚洲国产综合自在线不卡| 国产v片免费观看| 成人资源www网在线最新版| 一本一本久久a久久精品综合麻豆| 久久精品一区二区免费播放| 亚洲国产91视频| 欧美国产日韩xxxxx| 刘亦菲久久免费一区二区| 日韩成人精品在线| 蜜臀av.com| 国产福利免费在线观看| 3d动漫精品啪啪1区2区免费| 日本爱爱小视频| jizzjizz亚洲| 日韩av综合网站| 免费黄色av片| 国产精品日韩| 美女黄色片网站| 在线观看麻豆| 精品国产乱码久久久久久老虎 | 久久久久国产免费| 成人在线观看免费播放| 欧美精品情趣视频| 日本电影中文字幕| 99re热这里只有精品视频| 亚洲视频在线观看一区二区三区| aa级大片免费在线观看| 亚洲性夜色噜噜噜7777| 亚洲精品国产精品国| 国产伦精品一区二区三区在线观看| 18禁裸男晨勃露j毛免费观看| 男人天堂亚洲天堂| 久久精品国产69国产精品亚洲 | 免费在线视频观看| 综合久久婷婷| 亚洲 国产 欧美一区|