當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

加州大學(xué)圣克魯茲分校突破：上下文與計(jì)算力協(xié)同優(yōu)化AI性能

IP屬地中國(guó)·北京 科技行者 時(shí)間：2025-12-01 22:12:28

這項(xiàng)突破性研究由加州大學(xué)圣克魯茲分校的Kyle Montgomery和陳光旺教授團(tuán)隊(duì)主導(dǎo)，聯(lián)合華盛頓大學(xué)圣路易斯分校、Databricks、谷歌DeepMind和加州大學(xué)伯克利分校的研究人員共同完成，發(fā)表于2025年10月的arXiv預(yù)印本平臺(tái)（論文編號(hào)：arXiv:2510.14919v1）。對(duì)這項(xiàng)研究感興趣的讀者可以通過該編號(hào)查詢完整論文內(nèi)容。
AI模型就像一個(gè)正在成長(zhǎng)的孩子，我們總是很好奇：給它更多的"營(yíng)養(yǎng)"（計(jì)算資源）和"知識(shí)"（訓(xùn)練數(shù)據(jù)），它會(huì)變得多聰明？這個(gè)看似簡(jiǎn)單的問題，其實(shí)困擾了AI研究者很長(zhǎng)時(shí)間。過去的研究就像只看孩子吃了多少飯，卻忽略了他在什么環(huán)境下學(xué)習(xí)——而環(huán)境，也就是我們說的"上下文"，其實(shí)對(duì)孩子的表現(xiàn)有著巨大影響。
陳光旺教授的團(tuán)隊(duì)就像是發(fā)現(xiàn)了一個(gè)全新教育理論的教育專家。他們意識(shí)到，要準(zhǔn)確預(yù)測(cè)AI模型在實(shí)際任務(wù)中的表現(xiàn)，不能只看投入了多少計(jì)算資源，還必須考慮給模型提供了多少相關(guān)的背景信息。這就好比評(píng)估一個(gè)學(xué)生的考試成績(jī)，不僅要看他平時(shí)學(xué)習(xí)投入了多少時(shí)間，還要看考試時(shí)給了他多少參考資料和提示。
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的數(shù)學(xué)公式，能夠同時(shí)考慮計(jì)算資源和上下文信息對(duì)AI性能的影響。他們用這個(gè)公式在65500個(gè)不同場(chǎng)景下測(cè)試了Llama-2模型的各種變體，涵蓋了數(shù)學(xué)推理、常識(shí)推理和機(jī)器翻譯三大任務(wù)。結(jié)果令人振奮：這個(gè)新方法不僅能準(zhǔn)確預(yù)測(cè)模型在已知情況下的表現(xiàn)，還能可靠地預(yù)測(cè)當(dāng)計(jì)算資源增加三個(gè)數(shù)量級(jí)、上下文長(zhǎng)度增加四個(gè)數(shù)量級(jí)時(shí)模型的性能變化。
這項(xiàng)研究的意義就像為AI開發(fā)者提供了一張精確的"成長(zhǎng)地圖"。以前，研究人員只能憑經(jīng)驗(yàn)猜測(cè)投入更多資源會(huì)帶來多大提升，現(xiàn)在他們有了科學(xué)的預(yù)測(cè)工具。這不僅能幫助更高效地分配研究資源，還能指導(dǎo)未來長(zhǎng)上下文AI模型的設(shè)計(jì)和優(yōu)化。
一、傳統(tǒng)預(yù)測(cè)方法的局限：只見樹木不見森林
在AI發(fā)展的歷程中，研究者們一直在尋找一種能夠預(yù)測(cè)模型性能的"水晶球"。傳統(tǒng)的方法就像只關(guān)注運(yùn)動(dòng)員的體能訓(xùn)練時(shí)間，卻忽略了比賽環(huán)境對(duì)成績(jī)的影響。這些被稱為"神經(jīng)縮放定律"的方法主要關(guān)注三個(gè)要素：模型有多少個(gè)參數(shù)（相當(dāng)于運(yùn)動(dòng)員的肌肉量）、訓(xùn)練數(shù)據(jù)有多大（相當(dāng)于練習(xí)的次數(shù)），以及投入了多少計(jì)算資源（相當(dāng)于訓(xùn)練的強(qiáng)度）。
這種傳統(tǒng)方法在預(yù)測(cè)模型的"基礎(chǔ)體能"時(shí)表現(xiàn)不錯(cuò)，就像能夠準(zhǔn)確預(yù)測(cè)運(yùn)動(dòng)員在標(biāo)準(zhǔn)條件下的跑步速度。但問題在于，真實(shí)世界的AI應(yīng)用場(chǎng)景遠(yuǎn)比這復(fù)雜得多。一個(gè)AI模型在實(shí)際工作時(shí)，需要處理各種不同長(zhǎng)度和復(fù)雜度的輸入信息，這就像運(yùn)動(dòng)員需要在不同的天氣條件、不同的賽道上比賽一樣。
舉個(gè)具體例子來說明這個(gè)問題的嚴(yán)重性。假設(shè)我們有一個(gè)用于回答數(shù)學(xué)問題的AI模型。傳統(tǒng)方法可能會(huì)告訴我們，如果把模型規(guī)模擴(kuò)大一倍，準(zhǔn)確率會(huì)提升10%。但這個(gè)預(yù)測(cè)完全沒有考慮一個(gè)關(guān)鍵因素：我們給模型提供了多少解題例子作為參考？如果只給一個(gè)例子，模型可能表現(xiàn)平平；但如果提供十個(gè)類似的解題步驟作為參考，同樣的模型可能表現(xiàn)出色。傳統(tǒng)方法對(duì)這種差異視而不見。
更令人困惑的是，有時(shí)候傳統(tǒng)預(yù)測(cè)方法會(huì)出現(xiàn)嚴(yán)重的偏差。研究團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)他們用傳統(tǒng)方法預(yù)測(cè)一個(gè)模型在不同上下文長(zhǎng)度下的表現(xiàn)時(shí)，預(yù)測(cè)結(jié)果基本上是一條平線——無論提供多少背景信息，模型表現(xiàn)都差不多。但實(shí)際測(cè)試結(jié)果卻顯示，隨著上下文信息的增加，模型性能會(huì)出現(xiàn)明顯的上升趨勢(shì)，然后逐漸趨于穩(wěn)定。這種差異就像天氣預(yù)報(bào)說今天是晴天，結(jié)果卻下了一整天雨。
這種預(yù)測(cè)失誤的后果很嚴(yán)重。AI公司在決定是否投資開發(fā)長(zhǎng)上下文模型時(shí)，如果依賴錯(cuò)誤的預(yù)測(cè)，可能會(huì)做出錯(cuò)誤的商業(yè)決策。研究機(jī)構(gòu)在分配有限的計(jì)算資源時(shí)，也可能因?yàn)轭A(yù)測(cè)偏差而浪費(fèi)大量資源。更重要的是，整個(gè)AI領(lǐng)域?qū)τ谌绾卧O(shè)計(jì)更好的長(zhǎng)上下文模型缺乏科學(xué)指導(dǎo)，很多時(shí)候只能依靠試錯(cuò)。
正是意識(shí)到這些問題的嚴(yán)重性，陳光旺教授的團(tuán)隊(duì)決定開發(fā)一種全新的預(yù)測(cè)方法。他們的目標(biāo)不僅是提高預(yù)測(cè)的準(zhǔn)確性，更是要為整個(gè)AI領(lǐng)域提供一個(gè)能夠同時(shí)考慮計(jì)算資源和上下文信息的科學(xué)框架。這個(gè)框架需要足夠簡(jiǎn)單，讓研究者容易理解和使用；同時(shí)又要足夠準(zhǔn)確，能夠?yàn)閷?shí)際的AI開發(fā)提供可靠的指導(dǎo)。
二、突破性預(yù)測(cè)框架：讓計(jì)算力與上下文信息完美協(xié)作
面對(duì)傳統(tǒng)方法的局限，研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案，就像發(fā)明了一種能夠同時(shí)測(cè)量跑步者體能和跑道條件的全新儀器。這個(gè)新框架的核心思想非常直觀：AI模型的性能應(yīng)該由兩個(gè)關(guān)鍵因素共同決定——投入的計(jì)算資源和提供的上下文信息，而且這兩個(gè)因素是相互配合、缺一不可的。
新框架的數(shù)學(xué)表達(dá)式看起來可能有些復(fù)雜，但其背后的邏輯卻很好理解。整個(gè)公式由三個(gè)主要部分組成，就像一道需要三種調(diào)料才能做出美味的菜肴。第一個(gè)部分描述計(jì)算資源對(duì)性能的影響，遵循一種叫做"飽和冪律"的規(guī)律。這個(gè)規(guī)律說的是，剛開始增加計(jì)算資源時(shí)，性能提升很明顯，但隨著資源越來越多，提升效果會(huì)逐漸減緩，最終趨于飽和。這就像給植物澆水，適量的水能讓植物茁壯成長(zhǎng)，但水太多了反而可能適得其反。
第二個(gè)部分描述上下文信息對(duì)性能的影響，同樣遵循飽和冪律。當(dāng)我們給AI模型提供更多相關(guān)的背景信息或示例時(shí)，模型的表現(xiàn)會(huì)顯著改善。但這種改善不是無限的——當(dāng)上下文信息達(dá)到一定程度后，繼續(xù)增加信息的邊際效益會(huì)遞減。這個(gè)現(xiàn)象在人類學(xué)習(xí)中也很常見：第一個(gè)例子能讓我們豁然開朗，第二個(gè)、第三個(gè)例子能加深理解，但第一百個(gè)類似例子的價(jià)值就相對(duì)有限了。
第三個(gè)部分是一個(gè)巧妙的"懲罰機(jī)制"，專門處理上下文信息超出模型處理能力的情況。每個(gè)AI模型都有一個(gè)"上下文窗口"，就像人的短期記憶容量有限一樣。當(dāng)輸入的信息超出這個(gè)窗口時(shí)，模型的性能會(huì)急劇下降。研究團(tuán)隊(duì)用一個(gè)S形的函數(shù)來模擬這種急劇變化，確保預(yù)測(cè)結(jié)果符合實(shí)際情況。
這三個(gè)部分的組合方式也很有講究。研究團(tuán)隊(duì)沒有簡(jiǎn)單地把它們相加，而是用乘法的形式組合。這種設(shè)計(jì)反映了一個(gè)重要的現(xiàn)實(shí)：計(jì)算資源和上下文信息是互補(bǔ)的，而不是可以相互替代的。即使有再?gòu)?qiáng)大的計(jì)算能力，如果缺乏足夠的上下文信息，模型的表現(xiàn)也會(huì)受限；反之，即使提供了豐富的上下文信息，如果模型本身的能力有限，也無法充分利用這些信息。
為了驗(yàn)證這個(gè)框架的有效性，研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)。他們選擇了Llama-2模型的兩個(gè)版本作為測(cè)試對(duì)象，分別有70億和130億個(gè)參數(shù)。然后，他們使用一種叫做YaRN的技術(shù)，將這些模型的上下文窗口從原來的4千個(gè)token擴(kuò)展到12.8萬個(gè)token，相當(dāng)于把模型的"記憶容量"擴(kuò)大了32倍。
接下來，研究團(tuán)隊(duì)在三個(gè)不同類型的任務(wù)上測(cè)試了這些模型：數(shù)學(xué)推理、常識(shí)推理和機(jī)器翻譯。每個(gè)任務(wù)都包含了數(shù)千個(gè)測(cè)試樣本，總共積累了65500個(gè)獨(dú)特的測(cè)試實(shí)例。在每個(gè)測(cè)試中，他們系統(tǒng)性地變化兩個(gè)關(guān)鍵參數(shù)：投入的計(jì)算資源和提供的上下文長(zhǎng)度。這種全面的測(cè)試就像在不同的天氣條件、不同的賽道上測(cè)試運(yùn)動(dòng)員的表現(xiàn)，確保結(jié)果的可靠性和普遍適用性。
實(shí)驗(yàn)結(jié)果令人印象深刻。新框架在數(shù)學(xué)推理任務(wù)上的平均預(yù)測(cè)誤差只有1%，在常識(shí)推理上是3.7%，在機(jī)器翻譯上僅為0.7%。這種精確度就像天氣預(yù)報(bào)能夠準(zhǔn)確預(yù)測(cè)明天的溫度到小數(shù)點(diǎn)后一位。更重要的是，這個(gè)框架不僅在訓(xùn)練它的數(shù)據(jù)上表現(xiàn)良好，在面對(duì)全新的、更大規(guī)模的模型時(shí)也展現(xiàn)出了出色的泛化能力。
三、模型擴(kuò)展技術(shù)：從4千到12.8萬token的記憶飛躍
要理解這項(xiàng)研究的技術(shù)細(xì)節(jié)，我們需要先了解AI模型的一個(gè)重要限制。傳統(tǒng)的大型語言模型就像有短期記憶障礙的人，一次只能記住相對(duì)較少的信息。具體來說，Llama-2模型最初只能處理4096個(gè)token的輸入，這大約相當(dāng)于3-4頁的文本內(nèi)容。這個(gè)限制就像讓一個(gè)學(xué)生在只能看到教科書一小段內(nèi)容的情況下回答復(fù)雜問題，顯然會(huì)影響答題質(zhì)量。
為了解決這個(gè)問題，研究團(tuán)隊(duì)采用了一種叫做YaRN（Yet Another Rotation-based Position embedding method）的先進(jìn)技術(shù)。這種技術(shù)的工作原理有點(diǎn)像給模型"增加記憶容量"的手術(shù)。在AI模型中，每個(gè)輸入的token都需要有一個(gè)位置標(biāo)記，告訴模型這個(gè)詞在整個(gè)文本中的位置。原始模型的位置編碼系統(tǒng)只能處理相對(duì)較短的序列，當(dāng)序列變得很長(zhǎng)時(shí)，模型就會(huì)"迷失方向"。
YaRN技術(shù)通過巧妙地調(diào)整這個(gè)位置編碼系統(tǒng)，讓模型能夠理解和處理更長(zhǎng)的輸入序列。這個(gè)過程就像為一個(gè)近視的人配置新眼鏡，讓他們能夠看清更遠(yuǎn)的東西。研究團(tuán)隊(duì)使用這種技術(shù)，將Llama-2-7B和Llama-2-13B模型的上下文窗口分別擴(kuò)展到8千、1.6萬、3.2萬、6.4萬和12.8萬個(gè)token。
這種擴(kuò)展并不是簡(jiǎn)單的參數(shù)調(diào)整，而是需要額外的訓(xùn)練過程。研究團(tuán)隊(duì)使用了一個(gè)來自PG-19語料庫(kù)的數(shù)據(jù)集，這個(gè)數(shù)據(jù)集包含了大量的英文文學(xué)作品。他們讓擴(kuò)展后的模型在這些長(zhǎng)文本上進(jìn)行400步的額外訓(xùn)練，就像讓一個(gè)學(xué)生專門練習(xí)閱讀長(zhǎng)篇文章的技能。整個(gè)訓(xùn)練過程使用了64個(gè)樣本的批次大小，學(xué)習(xí)率設(shè)置為2×10^-5，這些參數(shù)都經(jīng)過了精心調(diào)優(yōu)。
為了驗(yàn)證擴(kuò)展效果，研究團(tuán)隊(duì)在RULER基準(zhǔn)測(cè)試上評(píng)估了所有12個(gè)模型變體。RULER是一個(gè)專門設(shè)計(jì)用來測(cè)試長(zhǎng)上下文能力的合成基準(zhǔn)，包含13個(gè)不同的任務(wù)，每個(gè)任務(wù)都需要模型在大量信息中找到關(guān)鍵內(nèi)容，就像在圖書館中找到特定信息的"大海撈針"測(cè)試。
測(cè)試結(jié)果顯示了一個(gè)有趣的現(xiàn)象。當(dāng)模型在其擴(kuò)展后的最大上下文長(zhǎng)度下工作時(shí)，性能往往不是最佳的。例如，擴(kuò)展到12.8萬token的模型在處理6.4萬token的輸入時(shí)可能比處理12.8萬token時(shí)表現(xiàn)更好。這種現(xiàn)象類似于運(yùn)動(dòng)員在稍低于極限強(qiáng)度下訓(xùn)練時(shí)往往能發(fā)揮出最佳水平。研究人員推測(cè)，這可能是因?yàn)槟Ｐ驮谏远逃谄渥畲笕萘康拈L(zhǎng)度下能夠更好地分配注意力資源。
這種上下文擴(kuò)展技術(shù)的成功為整個(gè)研究奠定了堅(jiān)實(shí)基礎(chǔ)。通過創(chuàng)建這些具有不同上下文處理能力的模型變體，研究團(tuán)隊(duì)獲得了足夠豐富的數(shù)據(jù)來驗(yàn)證他們的新預(yù)測(cè)框架。這就像科學(xué)家需要在不同條件下進(jìn)行多組對(duì)照實(shí)驗(yàn)，才能得出可靠的科學(xué)結(jié)論。
擴(kuò)展過程中還有一個(gè)重要的技術(shù)考量：計(jì)算復(fù)雜度的管理。長(zhǎng)上下文模型的注意力機(jī)制復(fù)雜度會(huì)隨著序列長(zhǎng)度的平方增長(zhǎng)，這意味著處理12.8萬token的計(jì)算成本比處理4千token要高出約1000倍。為了使實(shí)驗(yàn)可行，研究團(tuán)隊(duì)采用了高效的實(shí)現(xiàn)方法和合理的批次大小設(shè)置，確保在有限的計(jì)算資源下完成了大規(guī)模的實(shí)驗(yàn)。
四、全面實(shí)驗(yàn)設(shè)計(jì)：65500個(gè)測(cè)試樣本的性能畫像
為了全面驗(yàn)證新預(yù)測(cè)框架的有效性，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)規(guī)模龐大的實(shí)驗(yàn)方案，就像為AI模型安排了一場(chǎng)包含多個(gè)科目的綜合考試。這場(chǎng)考試涵蓋了三個(gè)關(guān)鍵領(lǐng)域：數(shù)學(xué)推理、常識(shí)推理和機(jī)器翻譯，每個(gè)領(lǐng)域都代表了AI應(yīng)用的重要方向。
在數(shù)學(xué)推理這個(gè)"科目"中，研究團(tuán)隊(duì)從四個(gè)知名數(shù)據(jù)集中精心挑選了測(cè)試材料。GSM8K數(shù)據(jù)集提供了小學(xué)數(shù)學(xué)應(yīng)用題，就像考察基礎(chǔ)計(jì)算能力；MATH數(shù)據(jù)集包含了更高難度的數(shù)學(xué)競(jìng)賽題目，類似于奧數(shù)考試；AQUA-RAT專注于量化推理，相當(dāng)于邏輯思維測(cè)試；而DeepMind Math則涵蓋了各種數(shù)學(xué)子領(lǐng)域的問題。為了測(cè)試不同上下文長(zhǎng)度的影響，研究團(tuán)隊(duì)為每個(gè)問題配備了多達(dá)511個(gè)類似的示例作為"參考資料"，就像給學(xué)生提供不同數(shù)量的例題來觀察解題效果的變化。
常識(shí)推理領(lǐng)域的測(cè)試更加多樣化，包含了七個(gè)不同的數(shù)據(jù)集。PIQA測(cè)試物理常識(shí)，比如"用什么工具最適合擰螺絲"；SIQA關(guān)注社交情境理解，類似于"在這種情況下應(yīng)該如何回應(yīng)"；OpenBookQA模擬開卷考試場(chǎng)景；HellaSwag要求模型預(yù)測(cè)故事的合理續(xù)寫；WinoGrande專門測(cè)試代詞指代消歧能力；ARC-Easy和ARC-Challenge提供了不同難度的科學(xué)常識(shí)問題；CommonSenseQA則綜合考察各種常識(shí)推理能力。每個(gè)任務(wù)同樣配備了多達(dá)511個(gè)上下文示例，讓研究團(tuán)隊(duì)能夠觀察模型在不同信息量下的表現(xiàn)變化。
機(jī)器翻譯測(cè)試選擇了WMT-14數(shù)據(jù)集中的五個(gè)語言對(duì)：德語、法語、印地語、捷克語和俄語到英語的翻譯。這種多語言設(shè)置就像測(cè)試一個(gè)翻譯員在不同語言環(huán)境下的專業(yè)能力。研究團(tuán)隊(duì)同樣為每個(gè)翻譯任務(wù)提供了不同數(shù)量的翻譯示例作為參考，觀察額外的翻譯樣例如何影響模型的翻譯質(zhì)量。
實(shí)驗(yàn)設(shè)計(jì)的巧妙之處在于上下文長(zhǎng)度的系統(tǒng)性變化。研究團(tuán)隊(duì)不是隨意選擇上下文長(zhǎng)度，而是采用了從0到511個(gè)示例的漸進(jìn)式設(shè)計(jì)。這種設(shè)計(jì)就像調(diào)節(jié)顯微鏡的放大倍數(shù)一樣，讓研究人員能夠清楚地觀察到性能變化的每一個(gè)細(xì)節(jié)。對(duì)于每個(gè)長(zhǎng)度設(shè)置，他們都會(huì)統(tǒng)計(jì)平均性能，確保結(jié)果的穩(wěn)定性和可靠性。
數(shù)據(jù)處理過程也體現(xiàn)了研究團(tuán)隊(duì)的嚴(yán)謹(jǐn)態(tài)度。在所有任務(wù)中，他們都過濾掉了超過256個(gè)token的樣本，確保測(cè)試的公平性和一致性。這就像在體育比賽中統(tǒng)一比賽條件，避免因?yàn)槠鹋芫€不同而影響成績(jī)比較。對(duì)于生成任務(wù)，研究團(tuán)隊(duì)設(shè)定了合理的最大生成長(zhǎng)度：數(shù)學(xué)問題允許生成400個(gè)token，選擇題限制為5個(gè)token，機(jī)器翻譯任務(wù)允許256個(gè)token。
評(píng)估方法的選擇也針對(duì)不同任務(wù)進(jìn)行了優(yōu)化。數(shù)學(xué)推理任務(wù)采用精確匹配的方式，提取模型生成的最終答案與標(biāo)準(zhǔn)答案進(jìn)行數(shù)值比較，確保評(píng)判的客觀性。選擇題任務(wù)直接比較模型選擇的選項(xiàng)與正確答案，方法簡(jiǎn)單直接。機(jī)器翻譯任務(wù)使用BLEU-4分?jǐn)?shù)進(jìn)行評(píng)估，這是機(jī)器翻譯領(lǐng)域的標(biāo)準(zhǔn)評(píng)估指標(biāo)，能夠綜合考慮翻譯的準(zhǔn)確性和流暢性。
整個(gè)實(shí)驗(yàn)產(chǎn)生了65500個(gè)獨(dú)特的數(shù)據(jù)點(diǎn)，每個(gè)數(shù)據(jù)點(diǎn)都包含了訓(xùn)練計(jì)算量、上下文長(zhǎng)度、模型上下文限制和對(duì)應(yīng)的性能指標(biāo)。這個(gè)數(shù)據(jù)集的規(guī)模和多樣性為后續(xù)的統(tǒng)計(jì)建模提供了堅(jiān)實(shí)基礎(chǔ)，就像為科學(xué)家提供了一個(gè)詳盡的觀測(cè)記錄，讓他們能夠發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的規(guī)律。
五、參數(shù)優(yōu)化策略：兩階段搜索找到最佳配置
為了讓新的預(yù)測(cè)框架發(fā)揮最佳效果，研究團(tuán)隊(duì)需要找到公式中六個(gè)關(guān)鍵參數(shù)的最優(yōu)值。這個(gè)過程就像調(diào)節(jié)一臺(tái)復(fù)雜儀器的多個(gè)旋鈕，需要找到讓整體性能最佳的組合設(shè)置。這六個(gè)參數(shù)分別控制著計(jì)算資源影響的強(qiáng)度、飽和點(diǎn)位置、變化速率，以及上下文信息影響的相應(yīng)特性。
面對(duì)這個(gè)復(fù)雜的優(yōu)化問題，研究團(tuán)隊(duì)采用了一個(gè)聰明的兩階段策略。第一階段類似于"廣撒網(wǎng)"的全局搜索，使用一種叫做差分進(jìn)化的算法在整個(gè)參數(shù)空間中尋找可能的最優(yōu)區(qū)域。差分進(jìn)化算法的工作原理很像生物進(jìn)化過程：它會(huì)生成多個(gè)候選解，讓它們相互"競(jìng)爭(zhēng)"和"繁殖"，性能好的解有更大機(jī)會(huì)傳遞給下一代，而性能差的解逐漸被淘汰。
這種全局搜索方法特別適合處理非線性、非凸的優(yōu)化問題。傳統(tǒng)的優(yōu)化方法往往容易陷入局部最優(yōu)解，就像爬山時(shí)只能看到附近的小山峰，卻錯(cuò)過了遠(yuǎn)處更高的山峰。差分進(jìn)化算法通過維持一個(gè)候選解的"種群"，能夠同時(shí)探索多個(gè)不同的方向，大大增加了找到全局最優(yōu)解的可能性。
為了確保搜索的有效性，研究團(tuán)隊(duì)為每個(gè)參數(shù)設(shè)定了合理的搜索范圍。這些范圍的設(shè)定基于以往的研究經(jīng)驗(yàn)和理論分析。例如，控制計(jì)算資源影響強(qiáng)度的參數(shù)A被限制在0到100之間，而控制飽和點(diǎn)位置的參數(shù)則根據(jù)實(shí)際的計(jì)算資源規(guī)模來設(shè)定。這種約束設(shè)置就像給搜索算法畫定了一個(gè)合理的"狩獵范圍"，避免在明顯不合理的參數(shù)區(qū)域浪費(fèi)計(jì)算資源。
第一階段的全局搜索完成后，研究團(tuán)隊(duì)進(jìn)入了第二階段的精細(xì)調(diào)優(yōu)。這個(gè)階段使用傳統(tǒng)的局部?jī)?yōu)化方法，以全局搜索找到的最佳解作為起點(diǎn)，進(jìn)行更精確的參數(shù)調(diào)整。這就像在找到了大致正確的山峰后，再仔細(xì)攀登到山頂?shù)淖罡唿c(diǎn)。局部?jī)?yōu)化方法能夠快速收斂到附近的最優(yōu)解，為參數(shù)提供更高的精度。
整個(gè)優(yōu)化過程的目標(biāo)是最小化預(yù)測(cè)誤差，具體來說就是讓模型預(yù)測(cè)的性能值與實(shí)際觀測(cè)值之間的差異盡可能小。研究團(tuán)隊(duì)使用均方誤差作為優(yōu)化目標(biāo)，這個(gè)指標(biāo)會(huì)對(duì)較大的預(yù)測(cè)偏差給予更重的懲罰，確保優(yōu)化過程優(yōu)先消除那些明顯的預(yù)測(cè)錯(cuò)誤。
優(yōu)化結(jié)果顯示了三個(gè)任務(wù)領(lǐng)域的顯著差異。在數(shù)學(xué)推理任務(wù)中，最優(yōu)參數(shù)配置顯示計(jì)算資源的影響相對(duì)溫和但持續(xù)，而上下文信息的邊際效益遞減較快。這意味著對(duì)于數(shù)學(xué)推理，提供適量的示例就足夠了，過多的示例反而可能造成干擾。常識(shí)推理任務(wù)則表現(xiàn)出對(duì)上下文信息更強(qiáng)的依賴性，模型需要更多的背景信息才能做出準(zhǔn)確判斷。機(jī)器翻譯任務(wù)的參數(shù)配置介于兩者之間，顯示了這類任務(wù)對(duì)計(jì)算資源和上下文信息的平衡需求。
這種任務(wù)特異性的發(fā)現(xiàn)本身就很有價(jià)值，它揭示了不同類型的AI任務(wù)在資源需求上的本質(zhì)差異。這就像發(fā)現(xiàn)不同運(yùn)動(dòng)項(xiàng)目的訓(xùn)練重點(diǎn)不同：短跑注重爆發(fā)力，長(zhǎng)跑注重耐力，而技巧性項(xiàng)目則需要大量的技術(shù)練習(xí)。了解這些差異有助于AI開發(fā)者針對(duì)特定任務(wù)類型優(yōu)化模型設(shè)計(jì)和訓(xùn)練策略。
六、預(yù)測(cè)精度驗(yàn)證：跨越三個(gè)數(shù)量級(jí)的泛化能力
新預(yù)測(cè)框架的真正價(jià)值體現(xiàn)在其出色的泛化能力上。研究團(tuán)隊(duì)不僅在訓(xùn)練數(shù)據(jù)上驗(yàn)證了框架的準(zhǔn)確性，更重要的是測(cè)試了它在面對(duì)全新場(chǎng)景時(shí)的表現(xiàn)。這種測(cè)試就像檢驗(yàn)一個(gè)天氣預(yù)報(bào)模型不僅能準(zhǔn)確預(yù)測(cè)本地天氣，還能在完全不同的地理環(huán)境中保持準(zhǔn)確性。
在分布內(nèi)測(cè)試中，框架的表現(xiàn)令人印象深刻。對(duì)于數(shù)學(xué)推理任務(wù)，平均預(yù)測(cè)誤差僅為1.0%，這意味著如果實(shí)際準(zhǔn)確率是80%，預(yù)測(cè)值通常在79%到81%之間。常識(shí)推理任務(wù)的預(yù)測(cè)誤差為3.7%，機(jī)器翻譯任務(wù)更是低至0.7%。這種精度水平在AI性能預(yù)測(cè)領(lǐng)域是前所未有的，就像氣象預(yù)報(bào)能夠準(zhǔn)確預(yù)測(cè)明天的溫度到小數(shù)點(diǎn)后一位數(shù)字。
更令人興奮的是框架在計(jì)算資源維度上的泛化能力。研究團(tuán)隊(duì)測(cè)試了五個(gè)不同規(guī)模的模型：從0.5億參數(shù)的Qwen-2.5-0.5B到700億參數(shù)的Llama-2-70B，這些模型的訓(xùn)練計(jì)算量跨越了三個(gè)數(shù)量級(jí)。這種測(cè)試范圍就像從小型輕便車到重型卡車的全面評(píng)估，確保預(yù)測(cè)方法在各種規(guī)模下都能保持有效性。
測(cè)試結(jié)果顯示了框架的強(qiáng)大適應(yīng)性。在大多數(shù)情況下，預(yù)測(cè)誤差都控制在5%以內(nèi)，這對(duì)于實(shí)際應(yīng)用來說已經(jīng)足夠精確。有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)規(guī)律：對(duì)于較小的模型，框架傾向于低估性能，而對(duì)于較大的模型，則傾向于略微高估。這種系統(tǒng)性偏差的發(fā)現(xiàn)本身就很有價(jià)值，因?yàn)樗梢酝ㄟ^簡(jiǎn)單的校正來進(jìn)一步提高預(yù)測(cè)精度。
在上下文長(zhǎng)度維度上的泛化測(cè)試同樣成功。研究團(tuán)隊(duì)故意隱藏了超過10000個(gè)token的長(zhǎng)上下文數(shù)據(jù)，然后用較短上下文的數(shù)據(jù)訓(xùn)練預(yù)測(cè)模型，最后測(cè)試對(duì)長(zhǎng)上下文場(chǎng)景的預(yù)測(cè)能力。結(jié)果顯示，即使在完全未見過的長(zhǎng)上下文條件下，預(yù)測(cè)誤差依然保持在很低水平：數(shù)學(xué)推理1.7%，常識(shí)推理6.7%，機(jī)器翻譯0.6%。這種能力就像根據(jù)短期天氣模式成功預(yù)測(cè)長(zhǎng)期氣候趨勢(shì)。
跨不同上下文擴(kuò)展技術(shù)的泛化測(cè)試提供了另一個(gè)維度的驗(yàn)證。研究團(tuán)隊(duì)比較了使用YaRN技術(shù)和位置插值技術(shù)擴(kuò)展的模型，發(fā)現(xiàn)預(yù)測(cè)框架對(duì)不同的技術(shù)路線都能保持良好的適應(yīng)性。這表明框架捕獲的是AI性能的本質(zhì)規(guī)律，而不是某種特定技術(shù)的表面現(xiàn)象。
邊界條件的處理是框架設(shè)計(jì)的一個(gè)亮點(diǎn)。當(dāng)上下文長(zhǎng)度超過模型的處理能力時(shí)，性能會(huì)急劇下降，這種情況在實(shí)際應(yīng)用中很常見。研究團(tuán)隊(duì)設(shè)計(jì)的S形懲罰函數(shù)很好地模擬了這種急劇變化，預(yù)測(cè)結(jié)果與實(shí)際觀測(cè)高度一致。這就像準(zhǔn)確預(yù)測(cè)汽車在超載情況下的性能下降，對(duì)實(shí)際應(yīng)用具有重要指導(dǎo)意義。
消融實(shí)驗(yàn)的結(jié)果進(jìn)一步證實(shí)了框架設(shè)計(jì)的合理性。當(dāng)研究團(tuán)隊(duì)移除懲罰項(xiàng)時(shí)，框架在處理超出上下文限制的情況時(shí)會(huì)產(chǎn)生明顯的預(yù)測(cè)偏差：低估正常范圍內(nèi)的性能，高估超出范圍時(shí)的性能。這種對(duì)比清楚地說明了每個(gè)組件的必要性和有效性。
七、實(shí)際應(yīng)用價(jià)值：為AI開發(fā)提供科學(xué)指南
這項(xiàng)研究的實(shí)際價(jià)值遠(yuǎn)超出了學(xué)術(shù)范疇，它為整個(gè)AI產(chǎn)業(yè)提供了一個(gè)實(shí)用的決策工具。在AI模型開發(fā)的實(shí)際過程中，研究團(tuán)隊(duì)和公司經(jīng)常面臨關(guān)鍵的資源分配決策：是應(yīng)該增加模型規(guī)模，還是擴(kuò)展上下文處理能力？投入多少計(jì)算資源才能達(dá)到目標(biāo)性能？這些問題以前只能依靠經(jīng)驗(yàn)和直覺，現(xiàn)在有了科學(xué)的預(yù)測(cè)工具。
對(duì)于AI公司的產(chǎn)品規(guī)劃，這個(gè)框架提供了寶貴的前瞻性視角。假設(shè)一家公司正在開發(fā)一個(gè)新的AI助手，需要在不同的應(yīng)用場(chǎng)景下保持良好性能。使用這個(gè)預(yù)測(cè)框架，他們可以提前評(píng)估不同配置方案的效果，比如是選擇一個(gè)參數(shù)更多但上下文窗口較小的模型，還是選擇參數(shù)相對(duì)較少但能處理更長(zhǎng)上下文的模型。這種預(yù)測(cè)能力就像建筑師在動(dòng)工前就能準(zhǔn)確預(yù)測(cè)建筑物的承重和成本。
在研究資源的分配上，這個(gè)框架同樣具有重要指導(dǎo)意義。學(xué)術(shù)研究機(jī)構(gòu)和企業(yè)研發(fā)部門往往面臨有限的計(jì)算預(yù)算，需要在多個(gè)研究方向之間做出選擇。傳統(tǒng)上，這種決策往往基于研究人員的直覺或者簡(jiǎn)單的線性外推。現(xiàn)在，研究團(tuán)隊(duì)可以使用這個(gè)框架來評(píng)估不同投資策略的預(yù)期回報(bào)，實(shí)現(xiàn)更科學(xué)的資源配置。
框架對(duì)長(zhǎng)上下文AI模型設(shè)計(jì)的指導(dǎo)作用尤其重要。隨著AI應(yīng)用場(chǎng)景的復(fù)雜化，越來越多的任務(wù)需要模型處理長(zhǎng)篇文檔、多輪對(duì)話或者復(fù)雜的推理鏈。這個(gè)預(yù)測(cè)框架揭示了一個(gè)重要現(xiàn)象：不同類型的任務(wù)對(duì)上下文長(zhǎng)度的需求存在顯著差異。數(shù)學(xué)推理任務(wù)在相對(duì)較短的上下文下就能達(dá)到性能飽和，而常識(shí)推理和機(jī)器翻譯任務(wù)則能從更長(zhǎng)的上下文中持續(xù)受益。這種洞察幫助開發(fā)者針對(duì)特定應(yīng)用場(chǎng)景優(yōu)化模型設(shè)計(jì)。
從成本效益的角度來看，這個(gè)框架提供了量化的投資回報(bào)分析。訓(xùn)練和運(yùn)行長(zhǎng)上下文模型的成本隨著上下文長(zhǎng)度的平方增長(zhǎng)，這意味著成本會(huì)快速上升。通過預(yù)測(cè)不同上下文長(zhǎng)度下的性能提升，開發(fā)者可以找到成本效益的最佳平衡點(diǎn)。這就像找到了投資收益的"甜蜜點(diǎn)"，在這個(gè)點(diǎn)上每單位投入能夠獲得最大的性能回報(bào)。
對(duì)于AI應(yīng)用的部署策略，這個(gè)框架也提供了有價(jià)值的指導(dǎo)。在實(shí)際應(yīng)用中，用戶的輸入長(zhǎng)度往往變化很大，從簡(jiǎn)短的查詢到長(zhǎng)篇的文檔分析都有。通過預(yù)測(cè)框架，開發(fā)者可以設(shè)計(jì)動(dòng)態(tài)的資源分配策略，為不同長(zhǎng)度的輸入分配相應(yīng)的計(jì)算資源，既保證服務(wù)質(zhì)量又控制運(yùn)營(yíng)成本。
研究結(jié)果還揭示了一個(gè)重要的技術(shù)選擇指導(dǎo)原則。框架顯示，不同的上下文擴(kuò)展技術(shù)（如YaRN和位置插值）在預(yù)測(cè)性能上表現(xiàn)相似，這意味著技術(shù)選擇可以更多地基于實(shí)現(xiàn)復(fù)雜度、計(jì)算效率等實(shí)際考慮，而不必過分擔(dān)心性能差異。這種發(fā)現(xiàn)簡(jiǎn)化了技術(shù)決策過程，讓開發(fā)團(tuán)隊(duì)能夠?qū)Ｗ⒂谄渌匾蛩亍?/p>
更廣泛地說，這個(gè)框架為整個(gè)AI領(lǐng)域建立了一個(gè)新的評(píng)估標(biāo)準(zhǔn)。以前，研究人員主要關(guān)注模型在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上的表現(xiàn)，往往忽略了上下文因素的影響。現(xiàn)在，通過這個(gè)統(tǒng)一的預(yù)測(cè)框架，不同研究之間可以進(jìn)行更公平、更全面的比較，促進(jìn)整個(gè)領(lǐng)域的健康發(fā)展。
八、局限性與未來展望：科學(xué)研究的誠(chéng)實(shí)反思
盡管這項(xiàng)研究取得了顯著成果，研究團(tuán)隊(duì)以科學(xué)嚴(yán)謹(jǐn)?shù)膽B(tài)度坦誠(chéng)地討論了當(dāng)前框架的局限性。這種誠(chéng)實(shí)的自我反思體現(xiàn)了優(yōu)秀科學(xué)研究的品質(zhì)，也為未來的改進(jìn)工作指明了方向。
首先，當(dāng)前框架主要基于相對(duì)有限的計(jì)算資源范圍進(jìn)行訓(xùn)練和驗(yàn)證。雖然測(cè)試模型跨越了三個(gè)數(shù)量級(jí)的計(jì)算規(guī)模，但在AI技術(shù)快速發(fā)展的今天，更大規(guī)模的模型不斷涌現(xiàn)。研究團(tuán)隊(duì)承認(rèn)，對(duì)于訓(xùn)練成本超出當(dāng)前測(cè)試范圍很多的超大規(guī)模模型，框架的預(yù)測(cè)準(zhǔn)確性可能會(huì)下降。這就像用中等規(guī)模實(shí)驗(yàn)的結(jié)果來預(yù)測(cè)大型工業(yè)生產(chǎn)，雖然有一定參考價(jià)值，但需要額外的驗(yàn)證。
其次，框架的設(shè)計(jì)基于幾個(gè)重要假設(shè)，這些假設(shè)在極端條件下可能不再成立。例如，框架假設(shè)性能會(huì)隨著計(jì)算資源和上下文信息的增加而改善，但在面對(duì)對(duì)抗性攻擊或者特殊設(shè)計(jì)的"陷阱"輸入時(shí)，這種關(guān)系可能被打破。現(xiàn)實(shí)世界的AI應(yīng)用經(jīng)常面臨各種意想不到的邊緣情況，框架在這些情況下的適用性還需要進(jìn)一步驗(yàn)證。
模型訓(xùn)練的復(fù)雜因素也沒有在當(dāng)前框架中得到充分考慮。現(xiàn)代AI模型的性能不僅取決于計(jì)算資源和上下文設(shè)計(jì)，還受到訓(xùn)練數(shù)據(jù)質(zhì)量、數(shù)據(jù)混合策略、后訓(xùn)練調(diào)優(yōu)（如指令微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)）以及模型架構(gòu)選擇等多種因素的影響。這些因素的相互作用非常復(fù)雜，目前的框架還無法完全捕捉這種復(fù)雜性。
研究團(tuán)隊(duì)指出，這些未涵蓋的因素可能會(huì)影響框架參數(shù)的具體數(shù)值，但不一定會(huì)改變框架的基本結(jié)構(gòu)。例如，經(jīng)過指令微調(diào)的模型可能在零樣本性能上表現(xiàn)更好，這會(huì)反映在參數(shù)A的數(shù)值上，但整體的數(shù)學(xué)形式仍然適用。這種觀察為未來的擴(kuò)展工作提供了方向：可以通過引入額外的參數(shù)或修正項(xiàng)來考慮這些因素的影響。
數(shù)據(jù)集選擇的局限性也是一個(gè)需要考慮的因素。當(dāng)前研究主要使用英語數(shù)據(jù)集，對(duì)于多語言模型或者特定領(lǐng)域的專業(yè)應(yīng)用，框架的適用性還需要進(jìn)一步驗(yàn)證。不同語言的語法結(jié)構(gòu)、文化背景和表達(dá)習(xí)慣可能會(huì)影響上下文信息的有效利用方式，這些差異可能需要在框架中得到特殊考慮。
任務(wù)類型的覆蓋范圍雖然已經(jīng)相當(dāng)廣泛，但仍然有改進(jìn)空間。當(dāng)前研究涵蓋了數(shù)學(xué)推理、常識(shí)推理和機(jī)器翻譯，但還有許多重要的AI應(yīng)用領(lǐng)域沒有涉及，如代碼生成、創(chuàng)意寫作、多模態(tài)理解等。每種任務(wù)類型可能都有其獨(dú)特的計(jì)算資源和上下文需求模式，需要專門的研究來驗(yàn)證框架的適用性。
展望未來，研究團(tuán)隊(duì)提出了幾個(gè)有前景的研究方向。首先是擴(kuò)展框架以考慮更多的影響因素，特別是訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。其次是開發(fā)針對(duì)特定應(yīng)用領(lǐng)域的專用版本，例如專門用于科學(xué)計(jì)算或者醫(yī)療診斷的預(yù)測(cè)框架。第三是研究如何將這個(gè)框架與其他AI評(píng)估方法結(jié)合，形成更全面的性能預(yù)測(cè)體系。
另一個(gè)有趣的研究方向是探索框架在AI模型設(shè)計(jì)中的主動(dòng)應(yīng)用。目前框架主要用于預(yù)測(cè)現(xiàn)有模型的性能，未來可以考慮將其用于指導(dǎo)新模型的架構(gòu)設(shè)計(jì)，實(shí)現(xiàn)性能導(dǎo)向的模型開發(fā)。這種應(yīng)用就像根據(jù)預(yù)期性能反推最優(yōu)設(shè)計(jì)方案，可能會(huì)催生新的模型設(shè)計(jì)范式。
研究團(tuán)隊(duì)還強(qiáng)調(diào)了持續(xù)驗(yàn)證和更新的重要性。隨著AI技術(shù)的快速發(fā)展，新的模型架構(gòu)、訓(xùn)練技術(shù)和應(yīng)用場(chǎng)景不斷涌現(xiàn)，預(yù)測(cè)框架也需要相應(yīng)地演進(jìn)和改進(jìn)。這要求建立一個(gè)持續(xù)的研究生態(tài)系統(tǒng)，定期收集新數(shù)據(jù)、驗(yàn)證框架準(zhǔn)確性、并根據(jù)需要調(diào)整模型參數(shù)。
說到底，這項(xiàng)研究最大的價(jià)值在于為AI領(lǐng)域建立了一個(gè)新的思考框架。它提醒研究者和開發(fā)者，在追求更大模型規(guī)模的同時(shí)，也要重視上下文設(shè)計(jì)的重要性。這種平衡的觀點(diǎn)可能會(huì)推動(dòng)AI技術(shù)向更高效、更實(shí)用的方向發(fā)展，而不是單純追求參數(shù)數(shù)量的增長(zhǎng)。
通過提供這樣一個(gè)科學(xué)的預(yù)測(cè)工具，研究團(tuán)隊(duì)為整個(gè)AI產(chǎn)業(yè)貢獻(xiàn)了一個(gè)寶貴的"指南針"。雖然這個(gè)指南針還不夠完美，但它已經(jīng)足夠準(zhǔn)確和實(shí)用，能夠幫助研究者和開發(fā)者在復(fù)雜的技術(shù)選擇中找到正確方向。正如任何優(yōu)秀的科學(xué)工具一樣，它的真正價(jià)值將在實(shí)際應(yīng)用中得到充分體現(xiàn)。
Q&A
Q1：這個(gè)AI性能預(yù)測(cè)框架具體是怎么工作的？
A：這個(gè)框架通過一個(gè)數(shù)學(xué)公式來預(yù)測(cè)AI模型性能，公式包含三個(gè)部分：第一部分描述計(jì)算資源對(duì)性能的影響，遵循"越多越好但會(huì)飽和"的規(guī)律；第二部分描述上下文信息的影響，同樣遵循飽和規(guī)律；第三部分是當(dāng)輸入信息超出模型處理能力時(shí)的懲罰機(jī)制。這三部分相乘得到最終預(yù)測(cè)，就像調(diào)配一道需要三種調(diào)料的菜肴。
Q2：為什么傳統(tǒng)的AI性能預(yù)測(cè)方法不夠準(zhǔn)確？
A：傳統(tǒng)方法就像只看運(yùn)動(dòng)員的體能訓(xùn)練時(shí)間，卻忽略了比賽環(huán)境的影響。它們主要關(guān)注模型參數(shù)數(shù)量、訓(xùn)練數(shù)據(jù)大小和計(jì)算資源，但完全忽略了上下文信息的作用。這導(dǎo)致預(yù)測(cè)結(jié)果往往是一條平線，無論給模型提供多少背景信息，預(yù)測(cè)的性能都差不多，但實(shí)際情況是上下文信息會(huì)顯著影響模型表現(xiàn)。
Q3：這個(gè)預(yù)測(cè)框架對(duì)普通AI開發(fā)者有什么實(shí)際幫助？
A：這個(gè)框架就像為AI開發(fā)提供了一個(gè)"投資顧問"。開發(fā)者可以用它來預(yù)測(cè)不同資源分配策略的效果，比如是增加模型規(guī)模還是擴(kuò)展上下文處理能力更劃算。它還能幫助確定成本效益的最佳平衡點(diǎn)，避免盲目投入資源，特別是在長(zhǎng)上下文模型開發(fā)中，因?yàn)樘幚砀L(zhǎng)上下文的成本會(huì)急劇上升。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

政策準(zhǔn)入“破冰” ，首批L3級(jí)自動(dòng)駕駛獲準(zhǔn)上路

精準(zhǔn)定位公眾對(duì)海量低質(zhì)AI內(nèi)容的不適感，《韋氏詞典》公布年度詞匯“AI泔水”

阿里國(guó)際站：今年以來，重慶企業(yè)在平臺(tái)上的出口額同比大漲42%

X新增在線圖片AI編輯器，部分創(chuàng)作者放棄在該平臺(tái)分享內(nèi)容

AI生物大模型賦能前沿生命科學(xué)

無人機(jī)、機(jī)器狗，常州消防無人化裝備研訓(xùn)中心啟用

全站最新

政策準(zhǔn)入“破冰” ，首批L3級(jí)自動(dòng)駕駛獲準(zhǔn)上路

精準(zhǔn)定位公眾對(duì)海量低質(zhì)AI內(nèi)容的不適感，《韋氏詞典》公布年度詞匯“AI泔水”

阿里國(guó)際站：今年以來，重慶企業(yè)在平臺(tái)上的出口額同比大漲42%

X新增在線圖片AI編輯器，部分創(chuàng)作者放棄在該平臺(tái)分享內(nèi)容

熱門推薦

政策準(zhǔn)入“破冰” ，首批L3級(jí)自動(dòng)駕駛獲準(zhǔn)上路

精準(zhǔn)定位公眾對(duì)海量低質(zhì)AI內(nèi)容的不適感，《韋氏詞典》公布年度詞匯“AI泔水”

阿里國(guó)際站：今年以來，重慶企業(yè)在平臺(tái)上的出口額同比大漲42%

騰訊混元推出ETC領(lǐng)域首款A(yù)I智能體，問題解決率達(dá)90%

X新增在線圖片AI編輯器，部分創(chuàng)作者放棄在該平臺(tái)分享內(nèi)容

AI生物大模型賦能前沿生命科學(xué)

無人機(jī)、機(jī)器狗，常州消防無人化裝備研訓(xùn)中心啟用

不寫“本子”，新模式評(píng)審，能否破解科研評(píng)估困局？

思特威推出高端5000萬像素0.7μm手機(jī)應(yīng)用CMOS圖像傳感器

Counterpoint：全球智能手表市場(chǎng)今年有望重回增長(zhǎng)軌道

修圖AI模型Qwen-Image-Edit-2511開源上線：提升角色一致性

從CDN先鋒到邊緣AI引領(lǐng)者，網(wǎng)宿科技高質(zhì)量發(fā)展獲深度認(rèn)同

無錫：入列“中國(guó)場(chǎng)景創(chuàng)新”第一梯隊(duì)

2026年或成中國(guó)汽車產(chǎn)業(yè)分水嶺

舊金山大停電致自動(dòng)駕駛癱瘓，Waymo解釋為何被困，并緊急升級(jí)軟件