欧美午夜性色大片在线观看_国产成人午夜电影网_91精品国产综合久久精品_污污片在线免费视频_日日干夜夜操s8_国产精品亚洲片在线播放_久久久久亚洲av无码专区_性欧美大战久久久久久久久_国产欧美在线观看视频_日韩国产中文字幕

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

僅0.2B就比GPT-4.1強?加州大學新指標:組合推理基準首次超越人類

IP屬地 中國·北京 新智元 時間:2025-11-08 20:11:16


新智元報道

編輯:LRST

加州大學河濱分校團隊發現,AI組合推理表現不佳部分源于評測指標過于苛刻。他們提出新指標GroupMatch和Test-Time Matching算法,挖掘模型潛力,使GPT-4.1在Winoground測試中首次超越人類,0.2B參數的SigLIP-B16在MMVP-VLM基準測試上超越GPT-4.1并刷新最優結果。這表明模型的組合推理能力早已存在,只需合適方法在測試階段解鎖。

前沿的人工智能模型雖然在眾多任務上取得了顯著進展,但研究發現,它們在組合推理 (compositional reasoning) 方面仍表現不佳,在多個經典基準測試上甚至低于隨機猜測水平。

加州大學河濱分校Yinglun Zhu研究團隊重新審視了這一問題,發現其根源之一在于評測指標本身——它系統性地低估了模型的真實能力。


博客鏈接:https://yinglunz.com/blogs/ttm.html

論文鏈接:https://arxiv.org/pdf/2510.07632

代碼鏈接:https://github.com/yinglunz/test-time-matching

團隊據此提出了新的GroupMatch指標,能夠挖掘被現有評測掩蓋的潛在能力,使GPT-4.1首次在Winoground基準測試上超越人類表現。

基于這一洞見,團隊進一步提出一種無需外部監督、能夠自我改進的迭代算法Test-Time Matching(TTM),可在模型推理階段顯著提升性能。

得益于TTM,僅0.2B參數的SigLIP-B16就在MMVP-VLM基準測試上超越了GPT-4.1,刷新了當前最優結果。

研究背景

組合推理(compositional reasoning)體現了AI是否具備「舉一反三」的能力——能否將對象、屬性和關系重新組合,去理解新的情境。

像Winoground這樣的基準測試通過2×2群組設計來考察這種能力:其中兩條文本用詞相同但順序不同,每條只對應其中一張圖像。

盡管這些模型在多模態任務中表現出強大能力,但對比式視覺語言模型(VLMs)和多模態大語言模型(MLLMs)在這類基準測試中表現依然有限。

在Winoground基準測試上,即便是前沿模型的得分也遠低于人類水平(約85.5分);

此前的最佳結果僅為58.75,且是通過對GPT-4V進行scaffolding和prompt tuning實現的。

重新審視評測指標

從隨機猜測到群組匹配

加州大學河濱分校(UCR)研究團隊發現,模型在組合推理任務中的低分,部分源自評測指標本身。

當前廣泛使用的GroupScore指標過于嚴格:它要求每張圖像都與正確的文本匹配、每段文本也與正確的圖像匹配,但并不檢查整個群組的全局一致性

只要有一次錯配,整組得分就會被判為0。

假設每組包含k張圖像和k條文本描述,GroupScore只逐一檢查圖像與文本之間的匹配情況,而忽略整體關系。

在隨機匹配下,成功率僅為 (k?1)! / (2k?1)!;當k = 2時,這個概率只有六分之一。

為解決這一問題,團隊提出了新的GroupMatch指標,用于評估群組內的整體最優匹配,而不是孤立的成對比較。

GroupMatch會考慮所有可能的匹配方式(共k!種),并選擇最可能的那一個。

這樣,在隨機猜測下的成功率提升為1 / k!——當k = 2時為二分之一,比原來的六分之一大幅提高。

更關鍵的是,如果模型能在GroupMatch下找到正確匹配,只需在測試階段對該匹配進行過擬合,就能在原始GroupScore下獲得滿分。

基于這一發現,團隊提出了一個簡單的SimpleMatch兩步法:

1. 使用 GroupMatch 選擇最可能的匹配;

2. 在測試階段對該匹配進行過擬合。


如上圖所示,SimpleMatch揭示了模型中大量「被隱藏」的潛力——它讓僅有0.2B參數的SigLIP-B16超越了此前所有結果,并使GPT-4.1首次在Winoground上超過人類表現。

Test-Time Matching

在測試階段自我迭代提升模型能力

為進一步提升模型表現,UCR研究團隊提出了一種無需外部監督、能夠自我改進的迭代算法Test-Time Matching (TTM)

每次迭代包括三個步驟:

1. 模型對所有群組進行匹配預測;

2. 僅保留置信度高的匹配(即得分差距超過閾值)作為偽標簽,并在這些偽標簽上自我微調;

3. 隨著迭代進行,逐步放寬閾值,以納入更多樣本。

TTM的核心在于兩點:

1. 基于GroupMatch的偽標簽能更有效地利用群組結構,提供更強的監督信號;

2. 閾值的逐步衰減機制讓模型先從高置信數據學習,再逐步擴展覆蓋范圍。

這一算法可以看作測試時訓練 (test-time training) 的一種形式,結合了自訓練 (self-training)、半監督學習 (semi-supervised learning) 和主動學習 (active learning) 的思想。

從實驗結果來看,TTM在多個數據集和模型上都穩定優于 SimpleMatch:相對性能提升最高可達 10.5%,相對錯誤率下降54.8%

值得注意的是,TTM讓SigLIP-L16在ColorSwap數據集上提升至GPT-4.1的水平,并使SigLIP-B16(僅0.2B參數)在MMVP-VLM上超越GPT-4.1,刷新了當前最優結果


TTM的廣泛適用性

雖然前面的結果主要基于方形群組(k×k)的組合推理任務,但TTM同樣適用于矩形群組,甚至是沒有群組結構的數據集。

指標變化不帶來提升的情況

在只有1×k結構的群組中,GroupMatch與GroupScore等價,因此單純更換指標并不會改進結果。

即便如此,TTM在SugarCrepe和WhatsUp等數據集上依然帶來了顯著提升,其中在WhatsUp上的相對增幅高達85.7%,讓原本困難的任務變得可解。


無群組結構的情況

TTM還能將整個數據集視為一個全局的「圖像-文本匹配問題」(assignment problem),并在多項式時間內求解。

即使將Winoground、MMVP-VLM和ColorSwap等數據集全部「打平」為無群組結構,TTM依然能顯著提升表現,最高可帶來33.3%的相對錯誤率下降。


討論與展望

UCR研究團隊重新審視了多模態模型在組合推理上的長期難題,指出:許多被認為的「失敗」,其實源自評測指標的局限。

團隊提出的GroupMatch指標與Test-Time Matching (TTM) 算法表明,模型的組合推理能力早已存在——只需要在測試階段,用合適的方法將其「解鎖」。

在覆蓋16個不同數據集變體的系統實驗中,TTM在多種設置下都展現出穩定而顯著的改進,推動了多模態推理研究的前沿進展。

展望未來,團隊認為有兩個方向值得進一步探索:

重新思考模型評估:同一個模型在不同指標下可能表現出截然不同的能力,這提醒我們需要建立更穩健、更統一的評測框架。

將TTM推廣至組合推理之外:雖然TTM起源于組合推理,但它的核心思想——在測試階段進行匹配式自訓練——具有普適性。該思路有望在更廣泛的多模態和語言任務中發揮作用,推動AI模型邁向真正的「自適應、自進化」。

參考資料:

https://arxiv.org/pdf/2510.07632

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

91久久影院| 精品中文一区| 操操操com| 久久久久在线视频| 91日韩精品视频| 品久久久久久久久久96高清| 欧美成人精品在线观看| 在线观看av一区二区| 97国产精品videossex| 夜间精品视频| 韩国精品视频在线观看| 日韩av成人| 99成人国产精品视频| 亚洲精品一区二三区| 亚洲av成人无码一二三在线观看| 午夜精品一区二区三区四区| 奇米4444一区二区三区| 亚洲精品动漫久久久久| 国产乱国产乱300精品| 日韩精品影视| va天堂va亚洲va影视| 麻豆视频在线| 国产黄色高清在线| 亚洲日本电影| 国产精品久久久久久久久夜色| 免费看污黄网站在线观看| 免费无码国产v片在线观看| 好吊妞www.84com只有这里才有精品| 欧美国产中文字幕| 日韩精品有码在线观看| 色先锋资源久久综合| 中文在线免费一区三区高中清不卡| 玖玖玖国产精品| 日韩欧美国产精品综合嫩v| 国产精品久久久久久久久久齐齐| av观看在线| 精品乱码一区二区三四区视频| www.撸撸| 夜夜爽视频导航| 亚洲精品aaaa精品| 殴美一级特黄aaaaaa| 天堂av免费在线观看| 国产在线视频第一页| 懂色av粉嫩av蜜臀av一区二区三区| 国产又粗又猛又爽又黄| 午夜久久久精品| 免费午夜视频在线观看| 欧美高清中文字幕| 亚洲精品自在在线观看| 免费电影一区| 国产精品福利视频| 91系列在线观看| 国产欧亚日韩视频| 国产精品视频一区二区高潮| 日本精品视频在线播放| 97免费在线视频| 久久久久久久av| 欧美激情精品久久久久久免费印度| 在线观看视频99| 亚洲色图综合久久| 亚洲欧美日韩爽爽影院| 亚洲国产精品专区久久| 欧美成人精品高清在线播放| 欧美久久高跟鞋激| 欧美亚洲图片小说| 精品国产成人在线| 老司机免费视频一区二区| 久久综合图片| 99精品免费| 羞羞答答成人影院www| 久久99国产精品视频| 国模大尺度视频一区二区| 少妇视频一区| 里番在线观看网站| 污污片在线免费视频| 国产高清一级毛片在线不卡| 97在线资源在| 福利电影在线| 好色视频app| 再深点灬舒服灬太大了少妇| 99久久亚洲| 日本1区2区3区视频| 九九热最新视频| 国产丝袜视频在线观看| 亚洲天天综合网| 91麻豆精品在线| 亚洲熟女综合色一区二区三区| 欧美激情精品久久| 免费人成年激情视频在线观看| 午夜影院黄色片| 国产高清一区二区三区四区| 可以直接看的无码av| 精品人妻一区二区三区日产乱码卜| 国产69视频在线观看| 亚洲欧美在线精品| 99re久久精品国产| 超碰97在线资源站| 美女爆乳18禁www久久久久久| 国产熟女高潮一区二区三区| 少妇一级淫片免费放播放| 在线观看欧美一区二区| 日韩av.com| 中文字幕一区久久| 亚洲午夜精品在线观看| 又黄又色的网站| 大桥未久恸哭の女教师| 7788色淫网站小说| 高清国产在线观看| 国产稀缺精品盗摄盗拍| 久久久久久免费观看| 精品午夜福利在线观看| 欧美在线观看不卡| 国产精品视频一二区| 囯产精品一品二区三区| 亚洲 欧美 自拍偷拍| 亚洲综合网站久久久| 久草国产视频| 免费观看欧美成人禁片| 免费特级黄毛片| 国产乱子伦三级在线播放| а天堂8中文最新版在线官网| 免费大片在线观看www| 日本高清成人vr专区| 日韩脚交footjobhd| 国产亚洲人成a在线v网站| 亚洲国产一区二区三区网站| 欧美日韩国产传媒| 亚洲精品色图| 国产精品综合久久| 亚洲国产成人自拍| 日韩欧美国产中文字幕| 69堂精品视频| 亚洲美女精品成人在线视频| 欧美精品一区二区三区国产精品| 国产999视频| 国内视频一区| 免费在线黄网站| 18深夜在线观看免费视频| 99精品一区二区三区无码吞精| 日韩人妻无码一区二区三区99| 中文字幕av片| 欧美最猛性xxxx免费| 交videos老少配com| av成人动漫| 午夜dj在线观看高清视频完整版| 国产一区二区三区影视| 成人羞羞视频播放网站| 男女精品网站| 国产日本欧洲亚洲| 性做久久久久久| 亚洲日本中文字幕| 57pao精品| 国严精品久久久久久亚洲影视 | 国产日韩亚洲欧美综合| 日韩欧美在线视频观看| 亚洲激情视频在线播放| 欧美在线欧美在线| 品久久久久久久久久96高清| 国产精品免费成人| av黄色在线免费观看| 波多野结衣在线观看视频| 九九久久久久午夜精选| 国产美女被遭强高潮免费网站| 国产在线色视频| 成人看片在线观看| 欧美视频在线观看| 久久精品视频在线免费观看| 欧美猛男gaygay网站| 欧美老女人xx| 明星裸体视频一区二区| 99热一区二区| 国产成人在线免费视频| 亚洲欧美另类色图| 中文天堂在线观看| 黄色在线观看www| 国产视频一区免费看| 国产精品少妇自拍| 亚洲精品美女视频| 国产玖玖精品视频| av免费看网址| 日韩一区二区三区四区视频| 国产91久久久| 在线中文字幕视频| 成人激情久久| 奇米综合一区二区三区精品视频| 亚洲伦理在线精品| 色伦专区97中文字幕| 国产日韩欧美亚洲一区| 久热在线视频观看| 四虎成人在线观看| 日本三级电影免费观看| 怡红院在线播放| 色偷偷综合网| a美女胸又www黄视频久久| 日韩电视剧在线观看免费网站| 国产综合久久久久| www.久久久精品| 中文字幕免费观看| 黄色的视频在线观看免费| 成人福利影视| 欧美午夜电影在线观看| 亚洲精品大片www| 亚洲欧美福利视频| 美女主播视频一区| 蜜桃传媒一区二区亚洲| 午夜一区在线观看| 成人三级黄色免费网站| 成人精品影院| 亚洲私人影院在线观看| 欧美精品亚州精品| 黄色一级片在线看| 国产a∨精品一区二区三区仙踪林| 蜜桃视频网站www| 欧洲精品99毛片免费高清观看| 国产激情视频一区二区在线观看| 91精品视频网| 成人欧美在线视频| 波多野结衣三级视频| 亚洲第一黄色片| yourporn在线观看视频| 日韩午夜电影网| 国产原创一区二区| 精品乱码亚洲一区二区不卡| 国产美女精品在线观看| 午夜久久久久久久| 国产原创在线播放| 色8久久影院午夜场| 久久91精品国产91久久小草 | 国产在线精品一区二区三区》| 中文字幕第38页| 日本久久国产| 一区二区精品伦理...| 日本中文字幕一区二区有限公司| 欧美日本韩国一区| 国产一级特黄a大片99| 中文字幕人妻一区二区| 国产美女被草| 香蕉久久一区| 国产不卡视频在线观看| 久久影视电视剧免费网站清宫辞电视| 操bbb操bbb| 国产性猛交╳xxx乱大交| 国产美女极品在线| 狠狠操综合网| 欧美视频国产精品| 亚洲综合精品一区二区| 天天躁日日躁aaaxxⅹ| 国产综合精品久久| 欧洲美女精品免费观看视频| 91亚洲国产成人精品一区二区三| 中文字幕v亚洲ⅴv天堂 | 91最新在线免费观看| 美女久久久久久久久久| 老太做爰xxxx| 久久国产精品免费精品3p| 欧美日韩国产在线| 国产精品一区二区三区四区五区 | 欧美电影三区| 欧美伊人精品成人久久综合97| 精品中文字幕人| 久久一级黄色片| 欧美18一12sex性处hd| 婷婷综合五月| 一本到不卡精品视频在线观看| 亚洲国产日韩综合一区| 国产伦精品一区二区三区视频网站| 香蕉网站在线| 国产精品普通话对白| 亚洲成人999| 激情深爱综合网| 亚洲女人天堂a在线播放| 欧美xnxx| 99久久综合99久久综合网站| 国产精品视频公开费视频| 90岁老太婆乱淫| 久久mv成人精品亚洲动漫| 亚洲女同一区| 日韩一区二区三区在线视频| 日韩视频在线免费播放| 国产尤物在线观看| 日本а中文在线天堂| 成人午夜电影久久影院| 国产精品色婷婷视频| 五月综合色婷婷| 中文字幕欧美一区二区| 日韩中文字幕一区二区三区| 精品久久久久香蕉网| 日韩精品xxxx| 欧美乱妇高清无乱码免费| 国产毛片精品| 精品视频一区 二区 三区| av磁力番号网| 99re只有精品| 秋霞影视一区二区三区| 欧美日韩色综合| 久久99久久久久久| 毛片中文字幕| 日本午夜精品久久久| 欧美精品xxxxbbbb| 欧美啪啪免费视频| 欧美bbbbxxxx| 99久久亚洲精品| 日韩精品极品在线观看播放免费视频| 亚欧美在线观看| 悠悠资源av网站| 黄色一区二区三区四区| 中文字幕日韩在线视频| 水蜜桃av无码| 黑人与亚洲人色ⅹvideos| 成人小视频在线| av激情久久| 一级日韩一级欧美| 日韩三级久久| 色诱视频网站一区| jizz18女人| 国产一级二级在线| 激情图片小说一区| 国产欧美精品久久久| 五月婷婷激情视频| 亚洲国产aⅴ精品一区二区三区| 黄色精品在线看| 在线观看的毛片| 美女胸又www又黄的网站| 国产一区二区91| 91原创国产| 精品人妻午夜一区二区三区四区 | 午夜精品一区| 国产精品蜜臀av| 一区二区三区观看| 国产精品亚洲电影久久成人影院| 亚洲男女av一区二区| 久久综合免费视频影院| 久久精品无码一区| 成人影院av| 欧美性大战久久| 在线黄色免费观看| 四虎在线观看| 国产精品视频一区二区三区不卡| 亚洲三区在线| 日本小视频网站| 毛片不卡一区二区| 动漫美女被爆操久久久| 五月激情丁香婷婷| 亚洲综合激情在线| 午夜精品久久久久久久白皮肤| 国产69视频在线观看| 鲁鲁在线中文| 欧美三级欧美一级| 爱情岛论坛亚洲自拍| 97超碰国产一区二区三区| 日韩毛片高清在线播放| 分分操这里只有精品| 国产网站观看9久| 97久久超碰精品国产| 国产奶头好大揉着好爽视频| 男人天堂免费视频| 久久这里只有精品首页| 一级日韩一区在线观看| blackedav金发美女大战黑人| 成人在线视频首页| 在线视频91| 少妇bbw搡bbbb搡bbbb| 日本一区二区成人| 777久久久精品一区二区三区| 美乳在线观看| 国产精品美女一区二区| 日韩精品视频久久| 日本桃色视频| 欧美日韩精品在线视频| 久久精品一卡二卡| 在线三级中文| 欧美日韩精品一区二区天天拍小说| 50一60岁老妇女毛片| 性欧美1819sex性高清| 少妇高潮久久久久久潘金莲| 西西44rtwww国产精品| 亚洲第一论坛sis| 性欧美亚洲xxxx乳在线观看| 99视频免费看| 亚洲精品护士| 99国精产品一二二线| 成人亚洲国产| 97se狠狠狠综合亚洲狠狠| 国产aaa免费视频| 日av在线播放| 色综合久久天天| 来吧亚洲综合网| 粉嫩精品导航导航| 欧美精品第一页在线播放| 亚洲AV无码成人片在线观看 | 精品欧美aⅴ在线网站| a级片在线观看视频| 成人黄色免费短视频| 国产亚洲精品久久久久动| 精品国产乱码久久久久久鸭王1| 亚洲尤物av| 国产精品免费小视频| 久久久久久国产视频| 国产激情一区二区三区| 成人中文字幕在线播放|