![]()
這項由北京大學計算機學院、北京人形機器人創新中心以及香港科技大學聯合完成的突破性研究,于2025年10月發表在arXiv預印本平臺(論文編號:arXiv:2509.22642v2)。研究團隊由北京大學的張尚航教授和唐建教授共同領導,匯集了來自三所頂尖學府的數十位研究人員。這項研究首次讓人工智能真正"理解"了物理世界的運作規律,而不僅僅是模仿表面現象。
當我們看到一個球從桌子上滾落時,我們本能地知道它會掉到地上,而不是懸浮在空中。這種對物理世界的直覺理解,對人類來說是如此自然,但對人工智能來說卻一直是個巨大的挑戰。現有的AI視頻生成模型,比如OpenAI的Sora,雖然能制作出視覺效果驚艷的視頻,但它們就像只會畫畫的藝術家,能畫出好看的畫面,卻不懂得畫面背后的物理原理。它們可能會畫出物體懸浮在空中、違反重力定律的荒謬場景。
這種局限性的根源在于,這些模型是通過觀看網絡視頻來學習的,就像一個從未親手觸摸過球的人,只能通過看別人玩球的視頻來"學習"球的特性。這種被動觀察的學習方式,讓AI只能掌握事物的外觀,而無法理解事物運作的內在規律。認知科學家讓·皮亞杰曾經說過:"要了解一個物體,就必須對它采取行動。"這句話揭示了學習的本質:真正的理解來自于與世界的互動,而不是被動的觀察。
基于這個深刻的認知科學洞察,北京大學的研究團隊開發了WoW(World-Omniscient World Model)世界模型,這是一個擁有140億參數的生成式世界模型。與傳統模型最大的不同在于,WoW是通過200萬個真實機器人互動軌跡進行訓練的。這些數據涵蓋了5275個不同任務和12種不同類型的機器人,就像讓AI親手體驗了無數次物理互動,從而真正學會了重力、碰撞、慣性等物理定律。
研究團隊還創新性地開發了SOPHIA框架(Self-Optimizing Predictive Hallucination Improving Agent),這個框架就像給AI裝上了一個內在的"老師"。當AI生成一個預測視頻時,這個內在老師會仔細檢查視頻是否符合物理規律,發現問題后會給出具體的修改建議,讓AI重新生成更合理的視頻。這個過程會反復進行,直到生成的視頻既視覺逼真又物理正確。
為了驗證WoW的能力,研究團隊建立了WoWBench基準測試,這是第一個專門評估AI物理理解能力的測試標準,包含606個測試樣本。實驗結果顯示,WoW在指令理解方面達到96.53%的準確率,在物理定律理解方面達到80.16%的準確率,在多項測試中都達到了當前最先進的水平。更重要的是,WoW不僅能想象未來會發生什么,還能將這些想象轉化為實際的機器人動作指令,真正實現了從"想象"到"行動"的完整閉環。
一、從被動觀察到主動探索:重新定義世界模型
傳統的AI視頻生成模型就像一個只會臨摹的畫家,它們通過觀看大量網絡視頻來學習如何生成看起來真實的畫面。然而,這種學習方式有一個根本性的缺陷:它們學到的只是事物的外觀,而不是事物運作的內在規律。
認知科學家讓·皮亞杰曾經說過:"要了解一個物體,就必須對它采取行動。"這句話揭示了人類學習的本質:我們對世界的理解來自于與世界的互動,而不是被動的觀察。一個孩子知道球會彈跳,不是因為看過球彈跳的視頻,而是因為親手拍過球、扔過球。
基于這個認知科學原理,研究團隊重新定義了世界模型的概念。傳統的世界模型主要關注狀態預測,就像一個能夠預測下一幀畫面的系統。而WoW世界模型則更像一個完整的認知系統,它包含了感知、預測、判斷、反思和行動五個核心環節。
這種設計理念的轉變意義重大。過去的模型更像是一臺精密的錄像機,能夠重現看過的場景,但無法理解場景背后的物理原理。而WoW更像是一個真正的智能體,它不僅能夠想象未來會發生什么,還能理解為什么會這樣發生,并且知道如何通過行動來影響結果。
研究團隊將這種新的世界模型比作人類大腦中的海馬體,它不僅存儲記憶,還能夠結合心理理論和知識推理來理解世界。這種整合式的設計讓AI系統第一次具備了類似人類的物理直覺。
二、SOPHIA框架:給AI裝上"內在批評家"
SOPHIA框架是這項研究的核心創新,它的全稱是"自優化預測幻覺改進智能體"。這個名字聽起來很復雜,但其實它的工作原理很像我們大腦中的兩套思維系統。
心理學家丹尼爾·卡尼曼在《思考,快與慢》中描述了人類大腦的兩套思維系統:系統1負責快速直覺反應,系統2負責深度分析思考。SOPHIA框架正是模擬了這種雙系統結構。
在SOPHIA中,首先有一個"生成器"(類似系統1),它能夠快速生成對未來的預測視頻。但是,這個初始預測往往包含物理上不合理的地方,就像我們的第一直覺有時會出錯一樣。
接下來,"批評家"系統(類似系統2)會仔細檢查這個預測是否符合物理定律。這個批評家不是簡單的規則檢查器,而是一個經過專門訓練的視覺語言模型,它能夠識別各種物理錯誤,比如物體穿墻、違反重力定律、或者不合理的碰撞效果。
當批評家發現問題時,它會生成詳細的反饋,指出哪里不對,為什么不對。然后,"改進器"會根據這些反饋重新調整輸入指令,讓生成器產生更合理的預測。這個過程會反復進行,直到生成的視頻既視覺逼真又物理合理。
這種迭代改進的過程就像一個學生在老師指導下不斷修改作業。每一次修改都讓結果更加完善,最終達到既美觀又正確的標準。研究團隊發現,通過這種方式,AI生成的視頻在物理一致性方面有了顯著提升。
三、從想象到行動:Flow-Mask逆動力學模型
擁有了能夠想象物理合理未來的能力還不夠,真正的智能體還需要知道如何將想象轉化為實際行動。這就像一個人不僅要能想象自己投籃的軌跡,還要知道如何調整手臂的角度和力度來實現這個軌跡。
為了解決這個問題,研究團隊開發了Flow-Mask逆動力學模型(FM-IDM)。這個模型的作用就像人類的小腦和運動皮層,負責將視覺想象轉化為具體的動作指令。
FM-IDM的工作原理相當巧妙。它首先分析當前狀態和預期狀態之間的視覺差異,就像比較兩張照片找不同。然后,它利用光流技術來理解物體是如何移動的,這就像追蹤一個球從A點到B點的運動軌跡。
基于這些信息,FM-IDM能夠推斷出機器人需要執行什么樣的動作才能實現這種狀態轉換。比如,如果預測視頻顯示一個杯子從桌子左邊移動到右邊,FM-IDM就能計算出機器人手臂需要如何移動來完成這個任務。
為了訓練這個模型,研究團隊收集了64.6萬個圖像-動作對,涵蓋219個不同的操作任務。這個數據集就像一本詳細的"動作字典",教會了AI如何將視覺目標轉化為具體的機器人動作。
這種設計的優勢在于它的通用性。不像那些針對特定機器人設計的控制系統,FM-IDM可以適用于任何視覺生成的世界模型,就像一個通用的翻譯器,能夠將任何"視覺語言"翻譯成"動作語言"。
四、WoWBench:專為物理智能設計的評測標準
評估AI系統的物理理解能力是一個全新的挑戰。傳統的視頻生成評估指標主要關注視覺質量,比如畫面是否清晰、色彩是否自然,但這些指標無法衡量生成內容是否符合物理定律。
研究團隊意識到,需要一套全新的評估標準來衡量AI的物理智能。于是他們開發了WoWBench,這是第一個專門針對具身世界模型的綜合性基準測試。
WoWBench就像一套物理智能的"高考試卷",包含606個精心設計的測試樣本。每個測試都給AI一張初始圖片和一個文字指令,然后要求AI生成一段視頻來展示如何完成這個任務。
評估體系分為四個核心維度。首先是視頻質量,這相當于"顏值分",評估生成視頻的清晰度和流暢性。其次是規劃推理能力,這測試AI是否能夠制定合理的行動計劃。第三是物理規律理解,這是最關鍵的部分,評估AI是否真正理解重力、慣性、碰撞等物理概念。最后是指令理解能力,測試AI是否能準確理解人類的意圖。
為了確保評估的準確性,研究團隊采用了多重驗證機制。他們不僅使用了先進的AI模型作為自動評估器,還邀請了12位領域專家進行人工評估。結果顯示,自動評估結果與人類專家的判斷高度一致,證明了這套評估體系的可靠性。
在WoWBench的測試中,WoW模型表現出色。它在指令理解方面達到了96.53%的準確率,這意味著它幾乎總能正確理解人類的意圖。在物理定律理解方面,它達到了80.16%的準確率,這在當前的AI系統中是一個相當高的水平。
五、實驗驗證:從仿真到現實的完整閉環
理論再完美,也需要實踐來驗證。研究團隊進行了大量實驗來測試WoW系統的實際效果,這些實驗就像給新藥做臨床試驗一樣重要。
首先,他們在仿真環境中進行了大量測試。仿真環境就像一個虛擬的實驗室,可以安全地測試各種極端情況。在這些測試中,WoW展現出了令人印象深刻的泛化能力。即使面對訓練時從未見過的場景,它也能生成物理上合理的預測。
比如,當WoW第一次看到一個新型機器人時,它能夠快速理解這個機器人的運動特點,并生成相應的操作視頻。這就像一個有經驗的教練,即使面對新的運動員,也能快速制定合適的訓練方案。
更重要的是,研究團隊還進行了真實機器人實驗。他們將WoW生成的動作指令輸入到真實的機器人中,測試這些指令是否能在現實世界中成功執行。結果顯示,WoW生成的動作計劃在現實世界中有很高的成功率。
在一個典型的實驗中,研究人員要求機器人將一個面包從木盤子移動到托盤上。WoW首先生成了一段預測視頻,顯示機器人如何抓取面包、移動到目標位置、然后放下。接著,FM-IDM將這個視覺計劃轉化為具體的機器人動作序列。最終,真實的機器人成功完成了這個任務。
這種從想象到現實的完整閉環驗證了WoW系統的實用性。它不再是一個只能生成好看視頻的工具,而是一個真正能夠指導機器人行動的智能系統。
六、超越生成:WoW的多元化應用潛力
WoW的價值遠不止于視頻生成。研究團隊發現,這個系統在多個領域都展現出了意想不到的應用潛力,就像一把瑞士軍刀,每個功能都很實用。
在視覺效果制作方面,WoW能夠生成多角度視頻,這對電影制作和虛擬現實應用非常有價值。傳統的視頻生成模型往往只能從單一視角生成內容,而WoW能夠理解三維空間關系,生成從不同角度觀察同一場景的視頻。
在機器人訓練方面,WoW可以作為一個強大的仿真器。傳統的機器人訓練需要大量的真實世界數據,這既昂貴又耗時。而WoW能夠生成大量高質量的訓練數據,大大降低了機器人學習的成本。
在教育領域,WoW可以用來制作物理教學視頻。它能夠準確模擬各種物理現象,比如彈性碰撞、流體運動等,為學生提供直觀的學習材料。
研究團隊還發現,WoW能夠增強其他AI系統的推理能力。當其他AI模型在處理復雜任務時遇到困難,WoW可以提供視覺化的"思考過程",幫助這些模型更好地理解問題。
這種多元化的應用潛力表明,WoW不僅僅是一個技術演示,而是一個具有廣泛實用價值的AI系統。它為人工智能在現實世界的應用開辟了新的可能性。
七、技術深度:14億參數背后的設計智慧
WoW系統的核心是一個擁有14億參數的神經網絡,這個數字聽起來很抽象,但可以這樣理解:如果把每個參數比作一個神經元的連接,那么WoW的"大腦"包含了14億個這樣的連接,這已經接近某些簡單生物大腦的復雜度。
在技術架構上,WoW采用了擴散變換器(DiT)作為核心生成引擎。擴散模型的工作原理就像一個逆向的"加噪過程":先從純噪聲開始,然后逐步去除噪聲,最終得到清晰的圖像或視頻。這個過程就像雕塑家從一塊粗糙的石頭開始,逐步雕琢出精美的藝術品。
為了增強模型的感知能力,研究團隊引入了DINOv2的自監督視覺特征。這就像給AI裝上了一雙"慧眼",能夠更好地理解場景中的物體和它們之間的關系。這種設計顯著提升了模型的訓練效率和生成質量。
在數據處理方面,研究團隊采用了3D哈爾小波變換來壓縮視頻數據。這種技術能夠將視頻分解為低頻成分(捕捉場景結構)和高頻成分(保留運動細節),讓模型能夠更有效地學習物理交互的細節。
文本條件化是另一個關鍵技術。研究團隊使用InternVL3-78B模型將簡單的指令擴展為詳細的環境描述,包括相機姿態、機器人類型和預期動作。這種豐富的文本描述為視頻生成提供了更精確的指導。
模型的訓練過程也經過了精心設計。研究團隊不是簡單地增加數據量,而是注重數據質量。他們建立了一個四階段的數據處理流程:收集、過濾、精化和重平衡。這確保了訓練數據既大規模又高質量,為模型學習提供了堅實的基礎。
八、突破與局限:誠實面對技術現狀
雖然WoW在多個方面取得了突破性進展,但研究團隊也誠實地承認了當前技術的局限性。這種科學的態度讓我們能夠更客觀地理解這項技術的真實水平。
在物理理解方面,雖然WoW在基本物理定律的理解上表現出色,但在處理復雜的多體交互時仍有改進空間。比如,當多個物體同時發生碰撞時,模型有時會產生不夠精確的預測。這就像一個學生在處理簡單物理問題時很熟練,但面對復雜的綜合題時還需要更多練習。
在時間一致性方面,雖然WoW能夠生成較長的視頻序列,但在極長時間跨度的預測中,累積誤差仍然是一個挑戰。這是所有預測系統都面臨的共同問題,就像天氣預報在短期內很準確,但長期預測的不確定性會增加。
在計算效率方面,14億參數的模型需要相當大的計算資源。雖然這在研究環境中是可接受的,但要在普通設備上部署還需要進一步的優化。研究團隊正在探索模型壓縮和加速技術,以降低部署門檻。
另一個挑戰是泛化能力的邊界。雖然WoW在已知場景中表現優秀,但當面對完全新穎的物理環境時,其表現可能會下降。這提醒我們,AI系統的智能仍然是有邊界的,需要持續的學習和改進。
盡管存在這些局限,WoW代表了AI物理理解能力的重要進步。它為未來的研究指明了方向,也為解決這些挑戰提供了基礎。
九、未來展望:通向通用人工智能的重要一步
WoW的意義遠超出了一個單純的技術演示。它代表了人工智能發展中的一個重要里程碑:從被動的模式識別向主動的世界理解轉變。
從技術發展的角度看,WoW開啟了"具身AI"的新時代。傳統的AI系統更像是"大腦在缸中",只能處理抽象的信息。而WoW這樣的具身AI系統則像是擁有了身體的智能,能夠理解物理世界并與之互動。這種轉變對于實現真正的通用人工智能至關重要。
在應用前景方面,WoW技術的成熟將帶來多個領域的革命性變化。在制造業,智能機器人將能夠更靈活地適應新任務,無需重新編程就能處理各種操作。在服務業,家用機器人將能夠更好地理解和響應人類需求。在教育領域,AI教師將能夠提供更直觀、更個性化的學習體驗。
從科學研究的角度看,WoW為理解智能的本質提供了新的視角。它證明了物理交互在智能發展中的核心作用,這與認知科學的發現高度一致。這種跨學科的融合為未來的AI研究提供了重要啟示。
研究團隊已經宣布將開源WoW的模型和數據,這將加速整個領域的發展。就像Linux操作系統的開源推動了整個軟件行業的發展一樣,WoW的開源也將為AI研究者提供強大的工具和基礎。
當然,通向通用人工智能的路還很長。WoW只是這個宏大目標的一個重要步驟。未來的AI系統需要整合更多的認知能力,包括抽象推理、情感理解、創造性思維等。但WoW為這個整合過程提供了堅實的物理基礎。
說到底,WoW的真正價值不在于它生成了多么逼真的視頻,而在于它讓AI第一次真正"理解"了物理世界。這種理解是智能的基礎,也是AI走向現實世界的必要條件。隨著這項技術的不斷發展和完善,我們有理由相信,一個真正智能的AI時代正在向我們走來。
對于普通人來說,WoW技術的發展意味著未來的AI助手將更加智能和實用。它們不再是只會聊天的語言模型,而是真正能夠理解和操作物理世界的智能伙伴。這將從根本上改變我們與技術的關系,讓AI真正成為人類生活和工作的得力助手。
Q&A
Q1:WoW世界模型與普通的視頻生成AI有什么本質區別?
A:WoW最大的不同在于它真正理解物理規律,而不只是模仿視覺效果。普通視頻生成AI就像只會畫畫的藝術家,能畫出好看的畫面但不懂物理原理,可能畫出物體懸浮在空中這樣違反重力的場景。而WoW通過200萬個真實機器人互動數據的訓練,學會了重力、碰撞、慣性等物理定律,生成的視頻既逼真又符合物理常識。
Q2:SOPHIA框架是如何讓AI自己糾錯的?
A:SOPHIA框架就像給AI裝了一個內在的"老師"。首先AI快速生成一個預測視頻(相當于學生交作業),然后"批評家"系統會仔細檢查這個視頻是否符合物理規律(老師批改作業),發現問題后會給出具體的修改建議,"改進器"根據這些建議重新調整輸入指令,讓AI重新生成更合理的視頻。這個過程會反復進行,直到生成既美觀又物理正確的結果。
Q3:WoW技術什么時候能在日常生活中普及使用?
A:目前WoW還處于研究階段,主要在實驗室環境中運行。由于它需要14億參數的大型模型和相當大的計算資源,短期內還無法在普通手機或電腦上運行。不過研究團隊已經宣布開源相關技術,這將加速技術發展和優化。預計在未來3-5年內,隨著硬件性能提升和模型優化,我們可能會看到基于WoW技術的應用出現在智能機器人、視頻制作軟件等專業領域,普通消費者可能需要更長時間才能直接使用。





京公網安備 11011402013531號