IT之家 12 月 17 日消息,智元 AGIBOT 今日官宣,來自香港大學、智元 AGIBOT、復旦大學和上海創(chuàng)智學院的聯(lián)合研究團隊提出了 WholeBodyVLA,這是一種面向真實世界的人形機器人全身 Vision–Language–Action 框架。
![]()
該工作基于智元靈犀 X2 研究發(fā)布,將 VLA 擴展至雙足人形機器人的全身控制,驗證了其在全身 loco-manipulation 任務中的可行性。




與原地操作相比,loco-manipulation 的難點不在于單一技能,而在于行走與操作必須在同一任務中長期、穩(wěn)定地協(xié)同發(fā)生。圍繞這一挑戰(zhàn),WholeBodyVLA 總結出限制 loco-manipulation 發(fā)展的兩個核心問題:真機數(shù)據(jù)稀缺以及運動執(zhí)行中的不穩(wěn)定性,并引入兩項關鍵方案:
從人類視頻中學習:通過從第一視角人類視頻中學習移動與操作的潛在動作表示,模型能夠不依賴大規(guī)模機器人遙操數(shù)據(jù),直接獲取對 loco-manipulation 行為的統(tǒng)一語義理解,從而顯著緩解人形機器人遙操作數(shù)據(jù)稀缺、采集成本高的問題。面向移動操作的 RL 控制器:將通用連續(xù)運動控制目標簡化為一組離散運動指令,僅保留 loco-manipulation 必要的強化學習訓練目標,從而顯著提升了控制器在運動執(zhí)行時的穩(wěn)定性。
研究團隊在智元靈犀 X2 人形機器人上進行了大量真機實驗驗證,發(fā)現(xiàn) WholeBodyVLA 具有以下能力:
01、 大范圍、長程移動操作任務

02、 距離泛化性
得益于統(tǒng)一潛在動作學習階段獲取的 manipulation-aware locomotion 知識,WholeBodyVLA 能從不同的位置出發(fā)、并停止在目標物體處完成操作任務。


03、 操作泛化性
得益于統(tǒng)一潛在動作學習階段獲取的 manipulation 知識,WholeBodyVLA 也對不同的場景、物體、位置表現(xiàn)出一定的操作泛化性。


04、 地形泛化性
得益于 LMO 改進的運控穩(wěn)定性,WholeBodyVLA 能夠在干擾地形上仍然保持基本準確的移動方向和平衡。


總的來說,WholeBodyVLA 展示了 VLA 擴展到雙足人形機器人自主全身控制的可行路徑。通過從人類視頻中學習,并結合針對移動操作的 RL 控制器,WholeBodyVLA 使機器人能夠在真實世界中穩(wěn)定完成行走與操作交織的長時序任務,為推動人形機器人走向制造、服務、物流等復雜場景提供重要基礎。
![]()
IT之家附項目鏈接如下:





京公網(wǎng)安備 11011402013531號