![]()
![]()
論文名稱: GeoVLA: Empowering 3D Representation in Vision-Language-Action Models
在具身智能的浪潮中,VLA 模型被視為通往通用機器人的快車道。然而,隨著研究深入到非結構化環境,現有 VLA 模型面臨著一個嚴重的維度缺陷:空間失明。
目前,大多數 VLA 模型(比如 OpenVLA、RT-2、Pi0、Pi05)單純依賴 2D RGB 圖像作為視覺輸入,導致模型眼中的世界“紙片化”,嚴重缺乏深度信息和幾何先驗;由此帶來的后果是:
深度感知缺失:面對需要精確距離判斷的任務,比如精準投籃、掛扣環,2D 模型往往“抓瞎”,無法準確預測 Z 軸的動作。
空間適應性差:一旦物體尺寸發生變化(Scale Variance)或相機視角發生偏移(Viewpoint Shift),便無法理解物體在空間中的本質位置,導致任務失敗。
![]()
圖 1:GeoVLA 整體示意圖
Dexmal 原力靈機作者團隊提出一種全新的 VLA 框架 GeoVLA,它在保留現有視覺-語言模型(VLM)的預訓練能力的同時,采用了一種優雅的雙流架構(Dual-path Architecture)。
具體而言,GeoVLA 在保留 VLM 強大的語義理解能力的同時,引入專用的點云嵌入網絡 PEN 和空間感知動作專家 3DAE,直接利用深度圖生成的點云數據,賦予機器人真正的三維幾何感知能力。
這一設計不僅在仿真環境中取得 SOTA,更在真實世界的魯棒性測試中,特別是在視角改變和物體尺度變化的極端條件下,展現出驚人的適應力。
方法框架
常見的做法試圖讓一個 VLM 既懂語義又懂幾何,這往往顧此失彼;GeoVLA 的核心邏輯是選擇把任務解耦:讓 VLM 負責“看懂是什么”,讓點云網絡負責“看清在哪里”。
![]()
圖2:GeoVLA 框架圖
GeoVLA 是一個全新的端到端框架,其流程包含三個關鍵組件的協同工作:
語義理解流:利用預訓練的 VLM(如 Prismatic-7B)處理 RGB 圖像和語言指令,提取融合后的視覺-語言特征。
幾何感知流:利用點云嵌入網絡 PEN 處理由深度圖轉換而來的點云,獨立提取高精度的 3D 幾何特征。
動作生成流:通過3D 增強動作專家 3DAE 融合上述兩種特征,生成精確的動作序列。
點云嵌入網絡 PEN
![]()
圖 3:雙路徑點云嵌入網絡細節圖
原始深度圖往往包含大量噪聲,且數據稀疏,直接作為輸入效果不佳。點云嵌入網絡 PEN 專為機器人操作設計,采用雙路徑架構來提取干凈且緊湊的幾何特征:
幾何特征提取:使用大核卷積和局部池化的輕量級 CNN,將非結構化的點云編碼為 Patch 級別的幾何 Token。
空間位置編碼:引入在大語言模型中常見的旋轉位置編碼 RoPE,它能極好地保留 3D 空間中的相對位置信息,這對于操作任務至關重要。
空間錨點(Spatial Anchor)設計是 PEN 的一大亮點。作者團隊并沒有簡單地對所有點云特征進行平均池化,而是選擇對應于末端執行器坐標原點的 Token 作為“錨點”。這種以“手”為中心的視角設計,讓模型能夠顯式地建模“手”與“物體”之間的幾何關系,大幅提升操作精度。
3D 增強動作專家 3DAE
特征提取只是第一步,如何有效融合 RGB 的語義信息和點云的幾何信息,實現1+1>2的效果,是多模態研究當中的難點。作者團隊在動作生成端采用基于擴散 Transformer (DiTs) 的架構,并創新性地引入混合專家 (MoE) 機制。
靜態路由策略 (Static Routing):這是一個直覺且有效的策略。在訓練過程中,由于 VLM 分支是預訓練的,而點云分支是從頭開始學,如果使用常規的動態路由,模型會傾向于走捷徑,只依賴 VLM 分支,忽略點云信息。
強制解耦:作者團隊采用了靜態路由,隨機丟棄某種模態,逼迫模型必須學會獨立利用幾何信息來解決問題,從而確保了雙流信息的有效融合。
實驗結果
GeoVLA 在仿真和真機實驗中均展現出對傳統 2D VLA 模型的壓倒性優勢,證明顯式 3D 表征在復雜操作中的不可替代性。
仿真環境測試結果
![]()
表 1:LIBERO 評測結果
在 LIBERO 基準測試中,GeoVLA 超越所有任務套件。在最具挑戰性的 LIBERO-90(長程多任務)中,GeoVLA 達到 97.7% 的成功率,超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。
![]()
表 2:ManiSkill2 評測結果
在物理仿真更為逼真的 ManiSkill2 中,GeoVLA 優勢更加明顯,平均成功率達到 77%,大幅領先 Dita (66%) 和 CogACT (69%);特別是在 PickClutterYCB 這種物體堆疊雜亂、遮擋嚴重的任務中,GeoVLA 憑借點云帶來的幾何理解,保持了極高的操作精度。
真機環境與魯棒性測試
![]()
圖 4:真機實驗任務的變體展示
作者團隊使用 WidowX-250s 機械臂進行了廣泛的真機測試;實驗被分為“基礎任務”和“3D 感知任務”。在域內任務中,GeoVLA 在基礎任務上平均成功率 95.0%,在 3D 感知任務上為 77.5%,總體平均 86.3%,大幅領先 Pi0 (57.5%) 和 CogACT (76.3%)。特別是在 Put Basketball 和 Put Hairclip 等需要精確空間理解的任務中,GeoVLA 表現出更好的魯棒性。
![]()
表 4:真機任務評測結果
更令人印象深刻的是 GeoVLA 在分布外(OOD)場景下的魯棒性,這也是 GeoVLA 最核心的突破點:
![]()
表 5(左):投籃任務變體的評測結果;表 6(右):套娃任務變體的評測結果
投籃任務變體(高度變化):當籃筐高度被調整到訓練數據未覆蓋的最高位置 (H1) 時,依賴 2D 視覺的 CogACT 和 Pi0 徹底失效,成功率降至 20%;而 GeoVLA 憑借點云信息,依然保持 60% 的成功率。
套娃任務變體(尺寸變化):面對比訓練時大一號的套娃,2D 模型往往因為像素特征不匹配而無法識別;GeoVLA 則通過幾何形狀匹配,保持了 80% 的高成功率。
堆疊積木任務變體(視角變化):堆疊積木時,當相機視角偏移 45°,CogACT 成功率直接歸零,說明 2D 模型極度依賴特定視角的像素記憶;而 GeoVLA 依然穩健,保持 70% 的成功率,證明其學到了真正的 3D 空間結構。
胡蘿卜任務變體(移除海綿墊):訓練時使用的海綿墊在推理階段被移除,胡蘿卜位置被降低,導致大多數方法抓取胡蘿卜失敗;GeoVLA 則能更穩定且成功抓取,展現出更強的泛化能力。
結論
本文中,Dexmal 原力靈機作者團隊提出 GeoVLA,通過引入點云嵌入網絡 PEN 和 3D 增強動作專家 3DAE,成功打破 VLA 模型在 3D 物理世界中的“感知壁壘”。
這項工作有力證明在端到端的機器人學習中,顯式引入 3D 幾何表征是提升模型泛化能力和魯棒性的關鍵。GeoVLA 不僅解決了傳統 VLA 模型“看得見但摸不準”的難題,更為未來具身智能邁向更復雜、更開放的非結構化環境提供了一種高效且優雅的解決方案。
特別是其雙路徑并行設計和靜態路由策略,為多模態融合提供了一個極具參考價值的范式:既保留了大模型的通用語義知識,又補齊了物理世界的幾何常識。對于追求精確操控的具身智能領域而言,GeoVLA 可能是一個重要的里程碑,標志著 VLA 模型從“看圖說話”向“空間智能”的實質性跨越。
參考文獻
Chengmeng Li, Junjie Wen, Yan Peng, Yaxin Peng, Feifei Feng, and Yichen Zhu. Pointvla: Injecting the 3d world into vision-language-action models. arXiv preprint arXiv:2503.07511, 2025.
Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao,Dong Wang, and Xuelong Li. Spatialvla: Exploring spatial representations for visual-language-action model. In Robotics: Science and Systems (RSS), 2025.
Zhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu,Yu Qiao, Jifeng Dai, and Yuntao Chen. Dita: Scaling diffusion transformer for generalist vision-language-action policy. arXiv preprint arXiv:2503.19757, 2025.
{Moo Jin} Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, and Chelsea Finn. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246
Li Qixiu, Liang Yaobo, Wang Zeyu, Luo Lin, Chen Xi, Liao Mozheng, Wei Fangyun, Deng Yu, Xu Sicheng, Zhang Yizhong, and others. CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation. arXiv preprint arXiv:2411.19650.





京公網安備 11011402013531號