文|富充
編輯|蘇建勛
“如果給你的企業100億元來推進具身智能的發展,這筆錢你會怎么花?”
在11月20日舉行的2025智源具身Open Day圓桌論壇上,主持人拋出了這樣一個開放性問題。
面對這個問題的嘉賓,來自8家國內具身行業的頂流企業機構:
智源研究院院長王仲遠
智元機器人合伙人、首席科學家羅劍嵐
北京大學助理教授、銀河通用創始人王鶴
清華大學交叉信息學院助理教授、星海圖聯合創始人趙行
加速進化創始人兼CEO程昊
自變量創始人兼CEO王潛
招商局集團AI首席科學家張家興
中國科學院大學教授趙冬斌
“我覺得100億元不太夠。”加速進化創始人兼CEO程昊笑著回應道,觀眾席也發出默契的笑聲,“如果只有100億,應該會找更多朋友一起推動具身行業。比如把錢投到智源研究院。”
智元機器人合伙人羅劍嵐傾向于用這筆錢解決當前的數據瓶頸:“我會去構建世界上最大的自我進化、自我閉環的數據飛輪。100億元可以說很多,也可以說不多,但是第一個用100億去做這個事情的人和機構還不存在。”
除了“怎么花錢”,8位嘉賓還討論了世界模型等業內關注的話題,也對當下主流采用的VLA范式提出了反思和改進思路。
為增強觀點間的碰撞,本次圓桌論壇上設置了一個有趣的“舉牌表態”環節:嘉賓需要通過舉起1、2、3號牌,表達同意、中立或不同意。
從舉牌結果來看,即便在國內頂尖從業者之間,非共識依然存在。分歧最為明顯的,是“數據稀缺”問題的解法。
星海圖聯合創始人趙行和招商局集團AI首席科學家張家興,主張真實物理世界數據的重要性;銀河通用創始人王鶴則強調,在真實數據難以采集的地方,合成數據將發揮重要作用。
自變量創始人兼CEO王潛認為可以使用融合的數據,但要根據不同的任務選取合適的數據來源。
如何選取和組合數據才能實現量變到質變的飛躍?不同的回答折射出每位創業者心目中的“第一性原理”與戰略重心。
以下是《智能涌現》從論壇中選取的精彩內容,對話經作者整理:
![]()
△2025智源具身Open Day“具身模型會客廳”圓桌論壇,圖源:智源研究院
主持人:大家認為,世界模型會是具身智能的關鍵技術嗎?
王鶴(同意):我只能說這取決于對世界模型的定義。經過Sora等一系列視頻生成模型的加工以后,世界模型原本在強化學習里的定義已經變得越來越模糊了。
當前一個主流思路是,讓機器人通過人類行為的視頻來學習。但這里存在一個根本問題:機器人的身體結構與人類差異巨大——無論是輪式底盤還是雙臂,其靈巧度和活動空間都與人不同。
因此,即便模型能生成逼真的人類動作,這類數據對機器人的實際幫助也相當有限。
然而,放眼未來,預測能力對具身智能而言不可或缺。機器人必須要能像人一樣,根據未來的目標,推理出當前應執行的動作,進行動作的規劃。
所以結論是:世界模型所代表的預測能力是核心,但它的訓練數據必須來自機器人自身。只有通過大量機器人數據,我們才能訓練出真正適用于機器人的、有效的世界模型。
王仲遠(同意):世界模型對具身智能來講肯定是有作用,但它并不一定是具身智能必須的一個基座。
我們所理解的世界模型,不僅僅是一個視頻的生成。視頻生成的時候,固然也產生了下一幀的畫面,但人類實際上需要的是世界模型可以基于前續的時空狀態,去預測下一個時空狀態。
就比如說剛才我要回答的時候,我需要基于主持人提問,可能會基于王鶴老師的回答,來組織我的答案,并做出拿起話筒的決策。
主持人:在通用大模型領域,Transformer這樣的統一架構催生了ChatGPT的爆發,但具身智能的模型并沒有進入到“一個大模型打天下”的局面,目前有分層的具身大模型、有端到端的VLA、有世界模型等等。
大家認為,具身智能模型最終會收斂到由某個統一架構主導嗎?
張家興(中立):我認為具身智能真想走向明天的話,模型層面其實并不能沿著過去三年LLM到VLM的這條路走下去。具身智能需要一個完全屬于自己的架構。
就像人的智能,是先有了動作,然后再有了視覺,最后才有了語言。VLA結構是在這個視覺跟動作之間夾了一個語言,其實這個并不符合我們真正的人類的我們操作的這個本質。
比如我們開車的時候,可以一邊聊天,一邊聽東西,一邊看路。(語言沒有參與開車這件事情本身)這說明Vison跟Action是打通的,并不需要Language一定在參與。
現在一些頭部團隊,尤其是硅谷的一些頭部團隊,正在做新的多模態大模型架構。在這個架構下,原來Language First的狀態,將有可能變成Vision First或者是Vision Action First,這是值得我們期待的一個突破。
趙行(同意):我非常同意我們需要一個平行于大語言模型的基礎模型。
這個基礎模型更大概率是一個Large Action Model,然后這個Large Action Model又依賴于視覺,因為視覺是世界上最通用的感知傳感器信息。在此之上,我們再去加入語言。
這和生物進化的規律是蠻像的。這個世界上先有了能運動的動物,然后他們有了視覺,最后出現了人類這種高智慧的生物。
然后我再多說一句,我覺得具身的模型和大語言模型需要有一個特別不一樣的地方,就是我希望它會是一個閉環模型。
大語言模型更多的還是一個開環模型。也就是說,大語言模型是一問一答:你告訴它問題,然后讓它給出答案,中間它自己會有一些思維鏈,如果答對了就結束了。
但是具身智能不一樣,具身智能不是經過一系列的思考然后做一個動作,而是在做一個動作以后立刻得到了一個世界的反饋,然后立刻調整我自己的動作再去做下一個動作。
羅劍嵐(同意):我覺得現在具身智能最終會被一個一體的系統去解決,這個系統里面包括VLA、世界模型、強化學習,而不是靠一個單一的模型。
這里解釋一下,我非常同意剛才張家興說,現在這個VLA可能不是一個最終范式,但我覺得它未來還是有Vision的,也是有Language的,也是有Action的。也就是說VLA這個大趨勢是對的,但是并不見得長成現在這個樣子,所以我還用VLA這個詞。
同時,它也需要有一個世界模型,能夠反思,能夠做預測,能夠在Latent Space(潛在空間)上做Imagination(想象)。當然這個系統里還需要強化學習。
這些要素共同組合以后,再配合真實世界里的數據飛輪,具身智能就可以不斷自我進化,持續學習。
王仲遠(同意):首先智源研究院肯定相信,從終極狀態來看,一定要有一個相對統一架構的模型來解決具身智能里的各種問題。這也是我們布局多模態世界模型的一個很重要的原因。
當然,這所需要的數據量顯然是要非常非常大的,甚至我覺得都不一定是三年、五年就能夠完全出現。
更好的具身大模型,可能要等大量機器人在真實場景中解決具體問題、累積出“具身智能互聯網”級別的數據之后,才會出現。
王鶴(同意):我覺得從架構的角度上講,我們今天所說的Transformer作為一個跨模態的Attention機制,是很通用的。比如你發現它吞吐文模態、視頻模態、聲音模態都是可以的。
不過,今天具身的問題是,我們人有眼、耳、口、鼻、舌,這么多“覺”,雖然從Attention的角度,把這些“覺”Token化以后都能放到Transformer里,但是它在輸出上好像不是那么的對。
所以如果我們把這些問題慢慢解決,架構上我覺得未來是可以有一個很統一的范式的。
但我覺得對于當下來說,更長效的的挑戰是數據。我非常認同仲遠博士剛剛講的,今天不論是視頻生成的模型,還是對話模型,它本質都是非常天量的互聯網大數據。
那么當下我們要想去研究出一個Action First的模型,其問題在于現在地球上的人形機器人居民太少。這樣少的一個數量,不足以撐起探索出一個Action First的架構和模型。
所以我的看法是,短期內我們要靠合成數據來摸索這個方向,它會比用真實數據更快。先用這種方法讓具身智能的能力點增長,然后它的人口才能增長,才能孕育出一個真正非常Powerful的大模型。
程昊(同意):我們因為做運控多一些,所以更多從機器人運控視角上思考具身智能模型。
我們希望能有一個具身模型,它能基于需求,基于環境,時刻輸出未來100幀的動作。我們腦補一下,這可能是一個機器人運動的動畫。
這個模型一旦跑通的話,整個具身智能就會非常好落地了。
為什么我們會比較關注世界模型?因為這里面一個挺核心的點,就是世界模型會預測接下來到底會發生什么,這既包括機器人本體主動地想做什么,還有就是這個事件會發生什么。
比如做飯就是一個非常難的事情,但可以先用一些分層的方法讓機器人先落地:先拿個快遞、拿個箱子,這些就是比較簡單的事情。
不過這確實很有挑戰,實現起來比較遠。所以我們中間會覺得可能先用一些分層的方法,先做一些Agent,先落地。
就像剛才王鶴老師說的,只要一落地,機器人公民一定會增多。因為落地就會創造價值,然后大家就都有動力、有錢、有意愿去造非常多的機器人公民,然后采集大量數據。
然后這些數據回來,我覺得會反哺整個具身智能大模型的開發。
王潛(同意):我覺得問題中Transformer這個說法稍微有一點點誤導。今天我們即使語言模型里面,也不一定都用Transformer的架構。
當然我理解這個問題是在討論我們會不會有一整套完善的,類似于當年GPT的一個完整的基礎模型。從這個角度上來,我覺得還是有的。
我們能從語言模型身上學到兩件特別重要的事。
第一是數據很重要,但不是簡單的“越多越好”。在語言模型時代我們已經看到,單純堆數據規模未必帶來最好效果,高質量、高效率的數據才是決定性因素。
所以雖然我們也做合成數據,但現在仍然以物理世界的真實數據為主,因為我們認為在具身場景里,數據質量比數據總量更能拉開一個量級上的差距。
第二是 要做Foundation Model(基礎模型) 。我認為必須要有一套物理世界的基礎模型,它平行于或者是獨立于虛擬世界。
原因在于,虛擬世界和物理世界的特性差異太大。物理世界中摩擦、接觸、碰撞等精細物理過程,本身很難用語言或傳統合成數據準確描繪。所以最終我們需要的是一個直接在物理世界上學習的基礎模型,能夠去描繪所有這些細致和復雜的物理過程一個模型。
它應該既能控制機器人,同時也是一個世界模型。所以,在我們的實踐里,世界模型、VLA 這些概念并不是互斥的:同一個模型既可以輸出動作,也可以輸出視頻等等,我們把這整體看作“物理世界的基礎模型“。
至于為什么要做通用模型,原因是通用模型學到的是跨任務的共性結構,也就是某種“常識”或“本質規律”。在具身,這可能是牛頓定律、物體屬性,在語言里是邏輯和常識。
我反而認為,最終是不是我們要繼承現在的多模態模型,用它來作為具身模型的基礎、基座;而是5至10年之后,來自具身的多模態模型有可能成為主導。也就是說,我們用物理世界中收集到的數據做出來的多模態模型,可能會反過頭來吞并今天以虛擬世界的數據為主做出來的多模態模型。
這其實也符合人類認知:我們一生接觸到的多模態數據遠少于互聯網規模,卻能形成很強的世界理解。其中一個關鍵原因就是具身智能可以在動作中完成交互感知和主動感知,更好地從而在時間和因果的維度上抓住物理世界的規律。
![]()
△現場嘉賓舉牌情況展示了對于具身智能問題的非共識,圖源:智源研究院
主持人:剛才幾位嘉賓不約而同強調了數據的重要性,現在能否用一兩句話介紹一下你們是采用了什么樣的策略去面對數據瓶頸的問題?
張家興:我們的數據理念是,第一,相信真實物理世界采集的數據,這個重要性剛才王潛說過很多次了。
第二,在整個數字金字塔中,我們接下來更偏重于以人自身作為本體去采集的數據。這是成本最低,量最能上得去的數據,主要用于預訓練。
趙行:我們也是以真實數據為基礎。然后有三個切入點。
第一個切入點是真實性、質量。所以我們從真實機器人的數采作為起點。
第二個關注的點是多樣性。比起數采廠,我們更多去到真實的場景里去做數采。
然后第三個方面,再去關注數量。擴大采集規模,降低采集成本。
羅劍嵐:我們也是堅持真實數據,然后也會很重視數據質量。
我覺得我們有兩個點會想突出一下,一是剛才趙行老師也說了,要在真實場景采集真實數據,而不是僅僅是在數據采集廠里面去采集。
另外一點我想說的是,我覺得未來整個數據飛輪的構建,還是通過機器人自主地去產生數據。這不是僅僅靠遙操作,而是要把大量的機器人部署在真實場景里面,然后機器人與環境交互,產生非常廣泛、非常多元化的數據。
王仲遠:我們還是堅持從視頻數據中,去做基座模型的學習。
因為剛才也提到了,視頻數據是我們可以海量獲得,又同時模擬真實世界的一個數據。然后通過真機采集的數據做微調,再通過強化學習去做反饋,去不斷提升模型能力。
這一套邏輯其實跟現在小朋友刷手機來認識世界是一個原理:先通過視頻學習到這個世界,再通過真實的交互體驗來提升他們的技能。這也符合第一性原理。
王鶴:可能在座的人里頭,我是很強調仿真的。
并不是說真實世界我們能采到的數據,我要故意去仿真它,而是我們發現很多底層的控制都是通過大量的強化學習習得的,而真實世界做這樣的強化學習比較困難。
比如我們今天看到的所有人形的足式行走、跳舞,包括各種復雜身體的控制,全部是通過仿真器習得的。
我們最近看到的趨勢,來自我們跟清華大學合作的靈巧手項目。到今天所有做手內操作的靈巧手工作,也都是用仿真器習得的,而不是通過遙操作。
因為大家可能發現,遙操控制一個靈巧手時,你不知道那個手的手指碰到沒碰到,扎到沒扎到,受多少力,這很難操作。
所以我的看法是,模擬器并不是說我們否定真實世界,而是這些豐富的物理交互,從模擬器為始,它給我們一個很好的base Controller,讓我們能在真實世界里能把數據飛輪轉起來。這個是我覺得是合成數據的使命。
程昊:我們現在實際上是用仿真數據會多一些,因為確實是用仿真數據比較快。
但我們現在用仿真數據訓的目標,其實是為了讓具身智能快速先落地,落地之后能獲得很多真實數據。
也許獲得真實數據之后,整體能力再有提升,可能會發現有些情況下真實數據成本太高,后面可能又開始大量用仿真數據,我覺得它可能是一個螺旋上升的過程。
最后就是視頻數據肯定是最多的,只不過現在視頻數據很多時候訓出來效果不那么好而已。但這個問題我覺得從歷史來看,肯定是有解法的。
所以終局的解法我們覺得,很有可能還是融合的數據,哪個階段哪個數據好用,就先用哪個。
王潛:我們是什么數據都用,但是我們可能用的這個地方有側重點。
就像我剛才說的,這個不同數據的分布差異還是蠻大的,比如說我們也用大量的互聯網數據,基本上互聯網上能爬的數據,我們肯定都會都會去爬一遍的。這個可能主要用來做預訓練,學一些常識。
我們仿真也做,但是可能不會用它來做這種接觸(Contact)、取物(Reach)的操作,可能只會用來做導航、規劃這些。那操作可能主要還是以這個物理世界的真實數據為主。
趙冬斌:我想自動駕駛應該也是具身的一個非常重要的例子。自動駕駛是落地了,從自動駕駛的經驗來看的話,他把車賣給用戶到C端,然后每個司機在每天在路上去開車,就把數據收回來了。
什么時候我們的這些機器人能賣到或者租賃到真實場景,邊工作邊收數據,數據量就會更快漲起來。
主持人:所以每位嘉賓能否用一句話解釋,你們在做決策時的第一性原理是什么?
張家興:我比較相信去年圖靈獎獲得者的說法:讓機器自己去發現,讓機器自己去探索。
趙行:我們在星海圖剛創立的時候,就有一句話是“In Scaling Law We Trust“。就是我們還是相信數據的規模化,能夠反向的驅動我們模型的進化和智能的實現。
羅劍嵐:我覺得我們要做難而正確的事情,風物長宜放眼量,很多事情短期看是負擔,長期來看它是會產生巨大的價值。
王鶴:銀河通用致力于讓數據飛輪轉起來。即使現在我們做的不是別人認為最炫酷的東西。
程昊:我們在決策的時候會關注說他到底能不能落地,某個方向是不是對落地有幫助。
王潛:我們的判斷標準就是能不能從一個比較長的時間周期上給客戶和消費者創造真實的價值。
趙冬斌:從研究上來看的話,智能駕駛跟具身智能會存在交互的支持。
主持人:具身智能很吸睛,但是也很花錢。一個快問快答的問題,如果給你的企業100億元來推進具身智能的發展,這筆錢你會怎么花?
王潛:我覺得我首先把這個市場上能吸納的好的人才,都吸納過來。其次肯定是算力和數據源。
程昊:首先我覺得100億不太夠(笑)。然后如果我只有100億的話,應該會找更多的朋友一起推動具身行業。比如投資到智源研究院,吸引全球的研究的人才來心無旁騖地做比較長期的技術突破。
王鶴:我覺得100億其實并不重要,重要的是你怎么能夠用你的事業和你堅定的進展吸引到人才加入。我們不希望大家為了錢每天睜開眼睛,而是為了一個未來人與機器人共生的世界。
我也認為,會用這十億美金支持智源研究院。
羅劍嵐:我覺得我會去構建世界上最大的自我進化、自我閉環的數據飛輪。100億這個錢可以說很多,也可以說它不多,但是第一個用100億去做這個事情的人和機構還不存在。
趙行:我也想會去構建一個最大的數據引擎,能把物理世界的信息全都數字化下來。
張家興:我是希望能夠設計屬于我們的機身智能的基礎模型,然后能夠做大規模預訓練,真的能夠Scale Up上去。





京公網安備 11011402013531號