用百萬億Token揭示今年AI發(fā)展趨勢,硅谷的這份報(bào)告火了!
無論是分析問題的角度,還是里面得出的一些結(jié)論,都被網(wǎng)友熱烈討論。
而且里面還公開肯定了中國開源模型,其每周Token用量占比一度高達(dá)30%。并且除了DeepSeek,編程領(lǐng)域的新秀MiniMax也被特意cue到。

這份報(bào)告由OpenRouter和a16z聯(lián)合出品,標(biāo)題為《State of AI:An Empirical 100 Trillion Token Study with OpenRouter》。
里面分析了自2024年11月至2025年11月,OpenRouter平臺上300+模型的使用情況,涵蓋GPT系列、Claude、Gemini、DeepSeek、Qwen、Kimi等國內(nèi)外主流開源與閉源模型。
![]()
而且統(tǒng)計(jì)的角度相當(dāng)特別——不看各種基準(zhǔn)得分,而是看模型的真實(shí)Token消耗量。
Token消耗量直接反映了模型被使用的方式和程度,因此比測試分?jǐn)?shù)更能揭示其本質(zhì)價值。
這一次,他們基于100萬億Token,在報(bào)告里得出了以下主要結(jié)論(省流版):
預(yù)計(jì)到年底,開源模型的使用量將達(dá)到約1/3,與閉源模型形成互補(bǔ)而非零和博弈;開源力量中,中國模型尤為受到青睞,流量份額從1.2%激增至30%模型正在從“語言生成系統(tǒng)”轉(zhuǎn)變?yōu)?strong>“推理執(zhí)行系統(tǒng)”,推理模型成為新范式;編程和角色扮演是模型的主要使用方式;用戶留存情況呈現(xiàn)“水晶鞋效應(yīng)”(一旦合腳就能大放光彩),新模型發(fā)布時能否完美解決某類痛點(diǎn)成為關(guān)鍵;模型價格下降固然重要,但遠(yuǎn)沒有你想象的那么重要。
如果你也想一覽2025年AI發(fā)展詳情,那就快來和量子位一起深度學(xué)習(xí)吧。
![]()
開源不再是閉源平替,中國力量上大分
關(guān)于開源模型(OSS模型),報(bào)告主要回答了這樣幾個核心問題:
問題1:過去一年,開源模型和閉源模型的力量對比變化如何?
問題2:有哪些關(guān)鍵的開源參與者?
問題3:開源模型的形態(tài)正在發(fā)生哪些變化?
首先,以前大多認(rèn)為開源模型是閉源模型的“平替”,開發(fā)者往往需要二選一。但現(xiàn)在,開源模型已經(jīng)找到了自己的獨(dú)特定位,成為某些特定場景的首選。
因此,如今二者的關(guān)系更接近互補(bǔ),開發(fā)者也往往同時在使用這兩類模型。
而且值得一提的是,開源模型的使用量一直在穩(wěn)步增長——隨著DeepSeek V3、 Kimi K2等主要開源模型的發(fā)布,預(yù)計(jì)到2025年底將達(dá)到約三分之一的用量。
![]()
與此同時,中國開源模型正在成為這一增長背后的主要引擎。
國產(chǎn)開源模型的每周使用量占比,從去年底的1.2%最高上漲至30%,平均下來也有13%。作為對比,其他地區(qū)開源模型的平均份額為13.7%。
![]()
不過需要說明,開源模型的格局已經(jīng)發(fā)生顯著變化——
雖然按照總使用量計(jì)算,DeepSeek仍是最大貢獻(xiàn)者。但隨著更多開源模型涌入,其主導(dǎo)地位已經(jīng)被削弱。
以“夏季拐點(diǎn)(2025年中)”為界線,上半年開源力量高度集中于DeepSeek V3和R1(約占一半以上),下半年卻呈現(xiàn)多元化趨勢,包括MiniMax M2、Kimi K2、GPT-OSS等相繼發(fā)布。
預(yù)計(jì)到2025年底,沒有一個單一模型能持續(xù)占比超25%Token用量,整個開源市場將由5~7個模型均分。
總之,2025年開源領(lǐng)域的競爭明顯更加激烈了,而且未來大概率不會出現(xiàn)一家獨(dú)大的情況。
![]()
另外,開源模型的形態(tài)也正在發(fā)生變化,目前中型模型更加獲得市場青睞。報(bào)告給出的分類是:
大型:參數(shù)為700億或更多的模型中型:參數(shù)在150億到700億之間的模型小型:參數(shù)少于150億的模型
之前開源模型大多在兩種極端之間平衡——要么“快而弱”,要么“強(qiáng)而貴/慢”,沒有太多“又快又足夠強(qiáng)”的中間選擇。
但是現(xiàn)在,雖然大、中、小類別的模型數(shù)量都在增長,但數(shù)據(jù)顯示小模型正在失寵,而中型和大型模型正在補(bǔ)位。
報(bào)告提到,在2024年11月Qwen2.5-Coder-32B發(fā)布之前,這個細(xì)分市場幾乎可以忽略不計(jì)。但之后又涌入了Mistral Small 3和GPT-OSS 20B等模型,于是這個細(xì)分市場逐漸成為又一個競技場。報(bào)告表示:
小模型主導(dǎo)開源生態(tài)系統(tǒng)的時代可能已經(jīng)過去。市場現(xiàn)在正分化為兩類,用戶要么傾向于一個新興的、強(qiáng)大的中型模型類別,要么將其工作負(fù)載整合到最強(qiáng)大的單個大型模型上。
![]()
推理模型成新范式
其次,語言模型正在從一個對話系統(tǒng)升級為推理系統(tǒng)、執(zhí)行系統(tǒng)。
年初時,模型使用推理的Token用量還可以忽略不計(jì),但現(xiàn)在已經(jīng)超過50%。
![]()
在所有推理模型中,目前馬斯克xAI旗下的Grok Code Fast 1用的推理流量份額最大,領(lǐng)先于Gemini 2.5 Pro和Gemini 2.5 Flash。
而大約幾周前,Gemini 2.5 Pro才是主力,另外像DeepSeek R1和Qwen3也在使用前列。報(bào)告表示:
推理模型正在成為真實(shí)工作負(fù)載的默認(rèn)選擇。
![]()
同時,模型調(diào)用工具的占比也在上升。
該功能最初僅集中于一小部分模型,包括GPT-4o-mini和Claude 3.5、3.7系列,它們在年初占了大頭。
而到了年中,有越來越多的模型開始支持工具調(diào)用,這反映出一個更具競爭性和多樣化的生態(tài)系統(tǒng)。
從9月底開始,Claude 4.5 Sonnet模型迅速獲得了份額,同時像Grok Code Fast和GLM 4.5這樣的新玩家也取得了肉眼可見的進(jìn)展。
報(bào)告表示,這對模型運(yùn)營商來說信號相當(dāng)明確:
工具使用在高價值工作流中呈上升趨勢。沒有可靠工具的模型有在企業(yè)采用和編排環(huán)境方面落后的風(fēng)險。
![]()
編程和角色扮演成AI主要使用方式
此外,過去一年里,AI模型的使用方式發(fā)生了根本變化,主要體現(xiàn)在以下三點(diǎn):
一是任務(wù)變復(fù)雜了——從“寫短文”到“解難題”。
以前大家主要讓AI生成文章或簡單回答,現(xiàn)在更多的是讓它分析一整份文檔、一個代碼庫或很長的對話記錄,從中提煉關(guān)鍵信息。
二是輸入輸出都變“重”了。
報(bào)告提到,用戶平均每次給模型的提示詞增加了約4倍,這反映出工作負(fù)載越來越依賴上下文信息。
![]()
并且由于模型推理消耗更多Token,模型完成任務(wù)需要的用量也增加了近3倍。
![]()
三是模型正變成“自動Agent”。
用戶不再滿足于問一句答一句。現(xiàn)在的典型用法是,給模型一個復(fù)雜目標(biāo),讓它自己規(guī)劃步驟、調(diào)用各種工具(如搜索、運(yùn)行代碼)、在長時間對話中記住狀態(tài),最終完成任務(wù)。
就是說,AI正在從“聊天機(jī)器人”轉(zhuǎn)變?yōu)槟塥?dú)立完成工作的“智能Agent”。
而且值得一提的是,在所有任務(wù)類別中,編程和角色扮演目前是AI的主要使用方式。
編程是所有類別中增長最穩(wěn)定的,其查詢用量從年初的11%上漲至最近的超50%。
![]()
在所有編程模型當(dāng)中, Claude系列模型始終占據(jù)主導(dǎo)地位,大部分時間其占比超過60%。
但這一地位正在被動搖。2025年11月,Anthropic在該領(lǐng)域的市場份額首次跌破60%,而在7月以來,OpenAI的市場份額已從約2%增長至近幾周的約8%。
同期,谷歌的市場份額保持穩(wěn)定,約為15%。另外幾個開源模型(比如Qwen和Mistral)也正在穩(wěn)步提升市場份額。報(bào)告還特意提到:
尤其是MiniMax,已成為快速崛起的新秀,近幾周取得了顯著增長。
![]()
此外,角色扮演也幾乎與編程持平。在開源模型中(一般限制會更小一點(diǎn)),它甚至占到52%的使用量。
在這一領(lǐng)域,中國開源模型和西方開源模型平分秋色。DeepSeek的流量中,有超過2/3是角色扮演和閑聊,顯示了其在消費(fèi)者端的極高粘性。
![]()
主流模型都有自己的打開方式
而除了喜歡在DeepSeek玩角色扮演,用戶對于各大主流模型都有自己鐘愛的“打開方式”。
Anthropic顯然是當(dāng)之無愧的程序員,其80%以上流量均用于編程和技術(shù)任務(wù)。
![]()
谷歌更像一位全才,用途相對寬泛,涵蓋法律、科學(xué)、技術(shù)和一些常識性查詢。
![]()
馬斯克旗下的xAI也在死磕編程,其技術(shù)應(yīng)用、角色扮演及學(xué)術(shù)用途在十一月下旬顯著增長。
![]()
OpenAI的工作重點(diǎn)則隨著時間發(fā)生明顯偏移,從娛樂休閑活動逐漸轉(zhuǎn)向編程和技術(shù)類任務(wù)。
![]()
Qwen模型同樣發(fā)力編程端,角色扮演和科學(xué)類任務(wù)則隨時間有所波動。
![]()
總之,用戶使用最多的編程正在成為兵家必爭之地。
用戶留存呈現(xiàn)“水晶鞋效應(yīng)”
BTW,報(bào)告專門針對用戶留存問題還提出了一個有趣的“水晶鞋效應(yīng)”。
它是指,大部分用戶會快速流失,但每一代“前沿”AI模型發(fā)布時,都會鎖定一小批“天選用戶”。這些用戶的任務(wù)需求恰好與這個模型的新能力完美匹配,就像灰姑娘穿上了剛好合腳的水晶鞋。一旦穿上,他們就很難換掉,即使后面有更好的模型出現(xiàn)。
典型的例子就是5月發(fā)布的Claude 4 Sonnet和6月發(fā)布的Gemini 2.5 Pro,其用戶留存率在5個月后還保持著40%的高水平,而這也正是取決于它們在工具調(diào)用和推理能力上取得的突破。
這也提醒大家,有時候“快”比“好”更重要。第一個用突破性能力解決關(guān)鍵問題的模型,即使后來被全面趕超,也能憑借早期建立的用戶習(xí)慣和系統(tǒng)集成,長期守住基本盤。
![]()
這里也用一些大家熟知的模型打個樣,看看具體有哪幾種模式:
成功鎖定(如Claude、GPT-4o Mini):在剛發(fā)布時就抓住了一批核心用戶,這些用戶粘性極高。從未合腳(如Gemini 2.0 Flash):模型發(fā)布時沒有帶來突破性的能力,所以用戶留不住,表現(xiàn)平平。回旋鏢效應(yīng)(如DeepSeek):一些用戶試用后離開,但嘗試了其他模型后又回來了。因?yàn)樗麄儼l(fā)現(xiàn),DeepSeek在性價比或特定能力上仍然是更好的選擇。
不過報(bào)告也提到,“水晶鞋效應(yīng)”的窗口期很短,基本只在它剛發(fā)布、被視為“最前沿”的那段時間。
一旦后續(xù)競品發(fā)布,能力差距被抹平,再想吸引和鎖定新用戶就非常困難了。
另外,除了上面這些,報(bào)告得出的其他結(jié)論還有:
AI不再是硅谷的獨(dú)角戲,亞洲地區(qū)的付費(fèi)使用量占比從13%翻倍至31%;北美的AI地位相對下降,雖然仍是最大市場,但份額已不足50%;英語依然占據(jù)82%的絕對主導(dǎo),但簡體中文以近5%的份額位居第二;模型定價對使用量的影響比想象中要小,價格下降10%,使用量僅增加0.5%-0.7%。
而且降價并不意味著用戶花錢就少了,當(dāng)某些模型變得足夠便宜且好用時,人們會在更多地方、用更長上下文、更頻繁地調(diào)用它。
于是總Token反而飆升,總支出可能并不降低,這也是報(bào)告中提到的“杰文斯悖論”。
最后需要提醒,這份報(bào)告也存在一定局限性。OpenRouter主要反映的是開發(fā)者和服務(wù)端API調(diào)用行為,但現(xiàn)實(shí)里還有大量用戶通過App或Web直接訪問(如ChatGPT App/Web),這些流量都不在OpenRouter內(nèi)。
而且OpenRouter的定價策略也會左右開發(fā)者選擇。例如,如果GPT-5.1在平臺上貴,而Claude更便宜,那么使用數(shù)據(jù)很可能往Claude傾斜,但這無法真實(shí)代表“Claude就更受歡迎”。
但不管怎樣,這份報(bào)告無疑為我們提供了一個新視角、一份新參考答案。
而這,或許是其最大的價值。
報(bào)告地址:
https://openrouter.ai/state-of-ai




京公網(wǎng)安備 11011402013531號