編輯部 整理自 MEET2026
量子位 | 公眾號 QbitAI
全球互聯網的文本數據已基本挖掘完畢,但視頻數據還未被充分利用。
智源研究院的多模態世界模型悟界·Emu3.5,就是一個從視頻中學習,而非僅依賴文本的大模型。
在量子位MEET2026智能未來大會上,北京智源人工智能研究院院長王仲遠提到:
當前人工智能正處于第三次浪潮的關鍵拐點:大模型不僅推動AI從弱智能向通用智能跨越,更有望讓機器人從1.0專用時代邁入2.0通用時代。
為此,智源研究院發布“悟界”系列大模型,錨定AI從數字世界進入物理世界的核心方向。
智源的Emu3.5與具身大腦全棧技術體系,就成為支撐這一技術演進趨勢的兩大基石。
![]()
MEET2026智能未來大會上,王仲遠還說,要實現AI與物理世界的深度交互,需突破多模態理解與具身執行的核心技術瓶頸。
目前,悟界系列已在多模態學習范式、跨機器人本體適配等領域取得關鍵進展,且多項成果已開源開放,助力產業協同創新。
為了完整體現王仲遠的思考,在不改變原意的基礎上,量子位對演講內容進行了編輯整理,希望能給你帶來更多啟發。
MEET2026智能未來大會是由量子位主辦的行業峰會,近30位產業代表與會討論。線下參會觀眾近1500人,線上直播觀眾350萬+,獲得了主流媒體的廣泛關注與報道。
核心觀點梳理
當下人工智能處于第三次浪潮的重要拐點,大模型推動其從弱人工智能邁向通用人工智能,推動機器人從1.0專用機器人時代進入2.0通用具身智能時代。視頻是能夠大規模獲得的模擬真實世界的高效載體,同時包含時間、空間、物理、因果關系以及意圖等各種要素。2025年往后,第三代Scaling范式的關鍵在多模態。智源研究院的悟界·Emu3.5,通過統一的自回歸架構,將大語言模型的Next-Token Prediction升級為在多模態數據上進行Next-State Prediction,預示著AI從語言學習邁入多模態世界學習的新階段。目前的具身大模型依然是不好用、不通用、不易用。不好用,指的是具身大模型還沒有達到ChatGPT時刻;不通用,指的是很多模型只能適用一個本體或者同一個品牌的本體;不易用,指的是大腦、小腦以及本體之間的適配度還是不夠高。智源研究院從成立起堅持開源開放,過去兩年多開源200多個模型,涵蓋語言模型、多模態模型、具身模型等,全球下載量突破6.9億次;開源100多個數據集,涵蓋語言、語音、圖像、視頻和具身智能等,全球下載量超過400萬次,僅在11月底開源的一個具身數據集下載量已超百萬次。以下為演講全文。
從數字世界到物理世界:AI迎來第三次浪潮關鍵拐點
今天想和大家分享的是智源研究院在“推動人工智能從數字世界邁向物理世界”上的一些最新科研進展。
我們知道當下人工智能正處于第三次浪潮中的重要的拐點。
過去幾年,大模型的爆發讓AI從原來的弱人工智能時代邁向通用人工智能時代,也有望推動機器人從1.0時代進入到2.0時代,也就是從專用的機器人到通用的具身智能。
基于對這一趨勢的預判,在今年的智源大會上,智源研究院也發布了“悟界”系列大模型
如果說四年前所發布的“悟道”系列大模型開啟了中國大模型時代——“悟道”的“道”代表我們對大語言模型方法和路徑的探索,那么“悟界”系列大模型代表了我們對于人工智能從數字世界進入到物理世界這一趨勢的判斷——“悟界”的“界”代表智源對于虛實世界邊界的不斷突破。
今天我想重點跟大家分享兩方面的進展:
一個是在我們在多模態世界模型上的突破,另外是具身大腦的全棧技術體系的成型
![]()
Emu3.5:從長視頻中學習物理世界動態
在今年的10月30日,智源研究院發布了悟界·Emu3.5,這是一個多模態的世界模型的基座。
Emu3.5用一個單一的Transformer基座能完成多樣化的能力,它跟其他一些大模型最重要的區別是,它是從長視頻中進行學習
我們知道文字和語言是人類智慧的結晶,是人類知識的總結。大語言模型的成功得益于從文字中學到了智能,學到了邏輯推理的能力,但全世界只有一個互聯網,文本的數據已經被基本使用殆盡,這也是為什么這一兩年可以看到像大語言模型的預訓練已經開始進入到比較緩慢的階段。
另外一方面,如果人工智能要從數字世界進入到物理世界,不僅僅需要理解文字,還要理解整個世界運行的規律,需要能夠處理圖像、聲音等各種各樣模態的信息。
視頻是目前能夠大規模獲得的,同時包含時間、空間、物理、因果關系、意圖等各種要素的、能夠高效模擬真實世界的載體。
![]()
我們知道大語言模型最重要的能力是對下一個詞元(Next-Token)進行預測,Emu3.5一個非常重要的能力,就是從長視頻中來進行學習,也正是由于這樣的訓練范式,使得我們能夠從Next-Token Prediction升級到Next-State Prediction,能夠對下一個時空狀態進行預測。
我們相信人工智能在未來這幾年會從“語言學習”進入到“多模態世界學習”的新階段。
為了實現這一目標,對比上一個版本,Emu3.5在各方面都有了大幅提升,比如訓練數據集中視頻的總量,從原來的15年上升到了790年,參數量從原來的8B提升到了34B。
Emu3.5所采用的是全自回歸的架構,自回歸架構與Diffusion和Diffusion Transformer的架構相比,其實在圖像、視頻等多模態的生成速度上,是有比較明顯劣勢的,但在Emu3.5中,通過我們自研的DiDA技術,每一張圖片的生成速度能夠提升約20倍,使得自回歸模型文生圖速度與世界頂級模型模型媲美。
基于以上突破,我們相信Emu3.5開啟了第三個的Scaling范式。
剛才前面兩位演講嘉賓也提到,現在整個Scaling確實進入到緩慢的階段。前幾年是大語言模型的預訓練的Scaling,過去這兩年是后訓練的Scaling,在多模態這塊,由于我們知道海量的多模態數據還沒有被有效地使用,因此依然有非常大的Scaling的空間。
更為關鍵的是,像Emu3.5采用的是自回歸的架構,因此能夠復用現有所有針對大語言模型的基礎設施,并且Emu3.5現在才只是34B的模型,對比大語言模型依然有千億、萬億的廣闊空間。
目前,Emu3.5科研體驗版已經向公眾開放,歡迎大家體驗。
這里我也簡單介紹一下,請看大屏幕中展示的Emu3.5生成的例子。文生圖方面,模型可以生成非常精美的圖片,各種細節非常豐富。在圖像編輯任務中,Emu 3.5展現了非常強的多模態理解能力。
![]()
比如說在左上角的例子,我們給了一個指令,“把問號的區域換成合適的顏色”,模型能夠通過語義推理填充符合邏輯的顏色;再比如中間的例子,指令是“將批改的卷子還原,把手寫的部分去除”,這要求模型首先要識別出哪些屬于手寫的部分。右下角的例子里,我們給了一張圖片,要求“換成一個俯瞰的視角”,模型非常好地展示出俯瞰視角的形象。可以看到,Emu3.5具備了很好的多模態推理和視覺理解能力。
近期,像Gemini 3 pro和Nano Banana pro相繼發布,在業界引發關注,其實之前我們把Emu3.5跟Nano Banana第一代做了對比,能力旗鼓相當。針對最新發布的Pro版本,我們正在進行各項能力的評估與測試,這邊展示其中部分結果。
在一些虛擬轉現實、尤其涉及到時間空間下一個狀態預測的任務上面,Emu3.5的表現可圈可點。
比如說在這個例子里,將摩托車的模型草稿圖轉成現實,我們可以看到Nano Banana還是做了很多偏離原圖的“自由發揮”,觀察細節可以看到與原圖的差異還是比較明顯的。Emu3.5則更好地保持了一致性。
![]()
再比如說左右視角轉換,因為Emu3.5是從視頻中學習,它對物理世界,對于時間、空間、物理的知識有了更加充分地理解,所以能夠達到更好的理解和生成的效果。對于預測下一個狀態的任務,從下面這個例子可以非常明顯地看出來,Emu3.5預測狀態的正確性和邏輯性具有顯著優勢。
![]()
除了圖像生成和圖像編輯以外,Emu3.5還具備長時空序列的視覺故事生成,視覺指導(圖文說明書)生成的能力,所有這些都是“世界模型”的核心要素。大家可以通過Demo了解更多。
更為關鍵的是,Emu3.5是全開源的模型。
具身大腦全棧技術:破解機器人“不通用、不易用”難題
Emu3.5解決的是世界基座模型的能力,人工智能要進入到物理世界,很重要的是跟硬件結合,像具身智能。
在具身智能上,智源研究院主要通過在數據和模型上進行破局,我們知道現在整個具身大模型依然不好用、不通用、不易用。
“不好用”是指具身大模型上沒有迎來“ChatGPT的時刻”,“不通用”是指很多模型只適用于一個本體或者同一個品牌的本體,“不易用”指的是大腦、小腦以及本體之間的適配難度還是比較高的。
今年我們智源研究院構建了以具身大腦Robo Brain為核心,自底向上的全棧的技術體系。
比如說,我們能夠實現跨各種機器人異構本體的數據采集以及數據標準化。在此基礎上,構建了具身大腦模型、具身小腦VLA基座模型,以及具身智能評測、端云協同部署框架等,所有這一切都能夠為整個產業加速發展,起到實質性的助力作用。
在今年智源大會上,我們還發布了RoboBrain2.0的版本,展示了模型能夠將人類復雜指令進行拆解,根據現場空間環境分解指令,并且分配給不同類型的機器人進行執行的具身大腦的能力。
同樣,這種交互與理解能力,其實不僅僅用在執行上,在導覽導購一些場景也有非常多的可以落地的應用。
在9月份的時候,我們也發布了具身小腦的基座模型,RoboBrain-X0,這是一個能夠在零樣本泛化、少量樣本微調條件下,驅動多種不同真實機器人完成復雜任務的跨本體基座大模型。11月20日的智源具身開放日上,我們發布了升級版X0-Pro,能夠執行更加復雜的指令。
在人形機器人領域,全身控制也是非常重要的能力。前兩個月大家可能有在網上看到一條非常火的視頻,我們用一個35千克的G1機器人拉動1.4噸的汽車。背后驅動這臺機器人的,就是全身控制框架BAAI Thor,它也驅動機器人實現了連續28個空翻的高難度全身控制。
![]()
開源開放
在11月20日的智源具身開放日上,我們也開源了一個高質量的雙臂操作數據集,短短20天內全球下載量突破了130萬次,我想,這就是智源研究院對于整個行業實實在在的貢獻。
當然不僅僅在具身智能,實際上智源研究院從成立的第一天開始,就堅持開源開放。
我們在過去兩年多開源了200多款模型,涵蓋大語言模型、多模態模型、具身模型等,全球下載總量已經突破了6.9億次。數據集也開放了近百個,涵蓋語言、語音、圖像、視頻和具身智能等,全球下載量超過了400萬次。
除了開源,我們也積極跟產業里的各方進行合作,比如在具身智能上,智源現在已經跟國內頭部30余家機器人企業和機構開展合作,我們也希望能夠與更多的大公司和創業公司開展合作,共同推動具身智能世界模型的發展。
以上就是我的分享,謝謝大家。
— 完 —





京公網安備 11011402013531號