![]()
這項由北京大學多媒體信息處理國家重點實驗室的錢澤中、李雨明團隊,聯合香港科技大學的遲曉為、韓思瑞,新加坡國立大學的王世尊,以及北京人形機器人創新中心的秦志遠、巨曉洲等研究人員共同完成的突破性研究,于2025年10月發表在arXiv預印本平臺(論文編號:arXiv:2510.07313v1)。這項名為"WristWorld"的技術首次實現了讓機器人通過外部攝像頭的畫面,自動生成手腕視角的操作畫面,就像給機器人裝上了"想象力",讓它能從第三人稱視角推測出第一人稱的精確操作畫面。
說起機器人學習操作技能,就好比教一個人學做菜。傳統方法就像只讓這個人站在廚房門口看別人做菜,雖然能看到大致流程,但很難掌握握刀、翻炒等精細動作的要領。而如果能讓學習者直接從廚師的視角觀看——也就是"第一人稱視角",那學習效果就會大大提升。問題在于,要獲得大量的第一人稱視角錄像非常困難和昂貴,就像要給每個廚師都裝上頭戴攝像設備一樣麻煩。
這正是當前機器人學習面臨的核心挑戰。現有的大型機器人數據庫雖然包含了數萬小時的操作錄像,但絕大部分都是從旁觀者角度拍攝的第三人稱視角,真正從機器人"手腕"角度拍攝的第一人稱視角錄像少之又少。這種數據不平衡就像讓學生只能遠距離觀察老師示范,而無法近距離觀察手部精細動作一樣,嚴重影響了機器人學習精確操作的能力。
研究團隊的創新突破在于開發出了一套"視角轉換想象系統"。這個系統能夠智能分析第三人稱的機器人操作錄像,然后自動生成對應的第一人稱手腕視角畫面。這就好比有了一個神奇的"視角轉換器",能夠將站在廚房門口看到的做菜過程,轉換成從廚師手部角度看到的精細操作畫面。更令人驚喜的是,生成的畫面不僅在空間上準確對應,在時間上也保持了完美的連貫性,就像真實拍攝的錄像一樣流暢自然。
整個技術系統采用了兩階段設計方案。第一階段稱為"重建階段",就像一個精密的空間分析師,能夠通過多個外部攝像頭的畫面,準確推算出機器人手腕的位置和朝向,并建立起整個操作場景的三維模型。第二階段稱為"生成階段",則像一個創意導演,基于第一階段提供的空間信息和場景理解,生成出逼真的手腕視角操作錄像。
一、空間重建:給機器人裝上"空間感知大腦"
重建階段的核心是讓計算機理解三維空間中正在發生的操作。研究團隊基于先進的視覺幾何模型VGGT,為其專門設計了一個"手腕頭部"模塊。這個模塊就像給系統裝上了專門理解手腕運動的"大腦區域",能夠從多個外部攝像頭的畫面中,精確推斷出機器人手腕在每個時刻的具體位置和朝向。
為了確保推斷的準確性,研究團隊創新性地提出了"空間投影一致性損失"方法。這種方法的巧妙之處在于,它不需要預先知道手腕的確切位置信息,而是通過比較不同視角畫面中對應點的位置關系,來驗證和調整手腕位置的推斷結果。就好比通過檢查一個物體在不同鏡子中的映像是否一致,來確保對物體真實位置的判斷準確無誤。
具體來說,系統會在外部攝像頭畫面和預測的手腕視角畫面之間建立密集的對應點關系。對于每一對對應點,系統會檢查它們在三維空間中的投影關系是否合理。如果某個點在外部攝像頭中顯示為紅色方塊,那么在手腕視角中對應的位置也應該顯示為同樣的紅色方塊。通過這種"交叉驗證"機制,系統能夠不斷修正對手腕位置和朝向的判斷,最終獲得高度準確的空間理解。
這個重建過程還會生成整個操作場景的四維點云模型——也就是包含時間維度的三維空間模型。這個模型就像一個詳細的空間地圖,記錄了操作過程中每個物體在每個時刻的精確位置和運動軌跡。有了這個"時空地圖",系統就能準確了解從手腕角度應該看到什么樣的畫面。
二、視頻生成:將空間理解轉化為逼真畫面
生成階段的任務是將第一階段獲得的抽象空間信息,轉化為逼真的手腕視角操作錄像。研究團隊采用了基于擴散變換器的視頻生成技術,這是目前最先進的AI視頻創作技術之一。
整個生成過程就像一個精密的電影制作流程。首先,系統會將重建階段獲得的三維場景信息"投影"到手腕視角的畫面平面上,形成一系列"條件地圖"。這些地圖就像電影拍攝中的故事板,為每一幀畫面提供了基本的構圖和物體布局指導。
為了讓生成的畫面更加豐富和真實,系統還會同時考慮外部攝像頭畫面中的語義信息。通過CLIP圖像編碼器,系統能夠理解場景中的物體類型、材質特征和操作語義,然后將這些信息融入到手腕視角的畫面生成中。這就好比在拍攝時不僅要考慮構圖,還要確保畫面中物體的材質、光照和細節都真實可信。
生成模型采用了條件擴散的工作原理。簡單來說,這個過程就像是從一片噪聲中逐步"雕刻"出清晰的畫面。系統從隨機噪聲開始,在條件地圖和語義信息的引導下,通過數百次微小的調整,最終生成出清晰、連貫的手腕視角操作錄像。整個過程就像藝術家根據草圖和參考資料,逐步完善一幅畫作一樣。
為了確保生成的視頻在時間上保持連貫,系統特別設計了時序一致性機制。這個機制會確保相鄰幀之間的物體運動軌跡合理,避免出現突然跳躍或不自然的變化。同時,系統還會維護整個視頻序列中物體外觀的一致性,確保同一個物體在不同幀中保持相同的顏色、紋理和形狀特征。
三、性能驗證:在多個平臺展現卓越能力
研究團隊在三個不同的機器人平臺上驗證了WristWorld技術的效果,包括大規模的Droid數據庫、標準的Calvin仿真環境,以及自建的Franka Panda真實機器人系統。
在視頻生成質量方面,WristWorld在所有評測指標上都取得了顯著優勢。以Franka Panda平臺為例,該技術在時序連貫性指標FVD上達到了231.43的優異成績,遠超需要手腕視角首幀作為輸入的Cosmos-Predict2模型(1156.69)和WoW 14B模型(985.99)。更重要的是,WristWorld完全不需要手腕視角的首幀輸入,僅憑外部攝像頭畫面就能生成高質量的手腕視角視頻。
在感知相似度和結構相似度等指標上,WristWorld同樣表現出色。LPIPS指標達到0.33(數值越低越好),SSIM指標達到0.78(數值越高越好),這些數字表明生成的畫面不僅在整體結構上與真實畫面高度相似,在細節紋理上也保持了很高的還原度。
更令人振奮的是,使用WristWorld生成的手腕視角數據來訓練機器人,實際操作能力獲得了顯著提升。在Calvin環境的連續任務測試中,加入生成數據的機器人平均任務完成長度從3.67提升到3.81,提升幅度達到3.81%。特別值得注意的是,這種改進縮小了僅使用外部視角和同時使用外部加手腕視角之間42.4%的性能差距。
在真實的Franka Panda機器人測試中,效果更加明顯。以"拿起牛奶"這個任務為例,僅使用外部視角訓練的機器人成功率只有13.3%,而加入WristWorld生成的手腕視角數據后,成功率躍升至33.3%,提升了整整20個百分點。"關閉上層抽屜"和"拿面包放進抽屜"等任務也都獲得了13.3%的成功率提升。
四、技術創新:突破傳統局限的關鍵設計
WristWorld技術的成功源于幾個關鍵創新點的巧妙結合。首先是專門的手腕頭部設計。與通用的視角轉換方法不同,這個模塊專門針對機器人手腕的運動特點進行了優化。機器人手腕的運動軌跡相對規律,但變化范圍很大,需要專門的算法來準確追蹤和預測。
空間投影一致性損失是另一個重要創新。傳統方法往往需要預先標注的手腕位置信息來訓練模型,但這種信息在現有數據庫中極其稀缺。新方法通過比較不同視角畫面中的對應點關系,實現了"自監督"學習,不需要額外的標注信息就能獲得準確的手腕位置估計。
在視頻生成方面,條件地圖引導機制確保了生成畫面的空間準確性。這些條件地圖就像建筑師的平面圖一樣,為每一幀畫面提供了精確的空間結構指導。同時,CLIP語義編碼確保了畫面的內容豐富性和真實感,讓生成的畫面不僅在幾何結構上正確,在視覺效果上也足夠逼真。
時序一致性保證機制解決了視頻生成中的關鍵難題。許多現有的視頻生成技術雖然能產生單幀高質量畫面,但在處理運動物體的連續性時經常出現閃爍、跳躍等問題。WristWorld通過精心設計的時序約束和運動建模,確保了整個視頻序列的流暢性和一致性。
五、實際應用:即插即用的技術擴展能力
WristWorld技術的另一個突出優勢是其出色的擴展性和兼容性。研究團隊將其設計為"即插即用"的技術模塊,可以輕松集成到現有的機器人學習系統中,而無需對原有系統進行大幅修改。
以現有的單視角世界模型為例。這類模型原本只能處理單一攝像頭的畫面,生成對應視角的未來畫面預測。通過加入WristWorld模塊,這些模型瞬間獲得了多視角能力——它們可以繼續生成原有的外部視角預測,同時還能額外提供手腕視角的畫面。這種升級就像給原本只能拍攝風景照的相機加上了微距鏡頭,瞬間獲得了近距離特寫的能力。
實驗結果顯示,這種即插即用的升級效果顯著。以Cosmos-Predict2模型為例,原本該模型在Franka Panda平臺上的FVD指標為1156.69,加入WristWorld模塊后,這個指標改善到467.19,提升幅度達到59.6%。WoW 14B模型也獲得了類似的顯著提升,從985.99改善到455.57。
這種兼容性設計的實用價值巨大。現有的機器人研究機構和公司不需要推倒重來,可以直接在現有系統基礎上獲得手腕視角數據生成能力。這大大降低了技術采用的門檻和成本,有助于該技術的快速普及和應用。
六、深度分析:技術細節與實現挑戰
從技術實現角度看,WristWorld面臨和解決了多個重大挑戰。首先是視角轉換的巨大跨度。從外部第三人稱視角轉換到手腕第一人稱視角,視野范圍、觀察角度、物體比例都發生了極大變化,這種轉換遠比一般的視角切換復雜。
研究團隊通過多層次的幾何建模來解決這個問題。系統不僅要理解二維畫面中的內容,還要準確重建三維空間結構,并在此基礎上計算新視角的投影效果。這個過程涉及復雜的幾何變換、遮擋處理和深度估計,每一個環節都需要極高的精度。
動態場景處理是另一個重大挑戰。與靜態場景不同,機器人操作場景中的物體在不斷運動,機器人手臂也在持續變化位置和姿態。系統需要同時追蹤多個運動物體,預測它們的運動軌跡,并在新視角下正確渲染它們的外觀。
為了應對這個挑戰,研究團隊采用了四維建模方法——在三維空間建模的基礎上加入時間維度。這種方法能夠捕捉物體的運動歷史和趨勢,為視角轉換提供更準確的參考信息。同時,系統還采用了分層的運動建模策略,分別處理背景環境、操作物體和機器人手臂的運動,確保每個組成部分都能得到恰當的處理。
遮擋問題的解決同樣展現了技術的精妙之處。在機器人操作過程中,手臂經常會遮擋操作物體,從外部視角看到的信息往往不完整。系統需要在有限的可見信息基礎上,推斷出被遮擋部分的內容,并在手腕視角中正確顯示。
研究團隊通過結合時序信息和物理先驗知識來解決遮擋問題。系統會利用物體在被遮擋前后的外觀信息,結合對物體幾何形狀和材質的理解,推斷出被遮擋部分的可能外觀。這種推斷不是簡單的插值或復制,而是基于對物體物理屬性的深度理解。
七、實驗設計:全面而嚴謹的驗證體系
研究團隊設計了全面的實驗驗證體系,從多個維度評估WristWorld技術的性能。實驗涵蓋了三個不同復雜度的平臺:大規模真實數據庫Droid、標準仿真環境Calvin,以及自建的真實機器人系統Franka Panda。
在Droid數據庫上的實驗主要驗證技術的泛化能力。Droid包含了來自50多個不同機構、超過76000個操作軌跡的大規模數據,涵蓋86種不同的操作任務和564種不同的場景設置。這種多樣性為技術驗證提供了極為嚴苛的測試條件。實驗結果顯示,WristWorld在FVD指標上達到421.10,遠超現有最佳方法WoW 14B的935.03。
Calvin環境的實驗重點驗證生成數據對機器人學習的實際幫助。Calvin是機器人學習領域的標準測試平臺,其任務設計模擬了真實世界中的各種操作場景。實驗采用了連續任務完成測試——機器人需要依次完成五個相關聯的任務,任何一個任務失敗都會導致整個序列終止。這種設計更真實地反映了機器人在實際應用中的表現。
結果顯示,使用WristWorld生成數據訓練的機器人在各項指標上都獲得了提升。特別是在完成全部五個任務的成功率上,從55.4%提升到60.4%,提升了整整5個百分點。考慮到機器人學習中每個百分點的提升都來之不易,這個結果相當令人振奮。
Franka Panda真實機器人實驗提供了最直接的應用驗證。研究團隊搭建了完整的多攝像頭機器人系統,包括手腕攝像頭、頂部攝像頭以及左右兩側攝像頭,形成了360度的視覺覆蓋。實驗任務包括了各種典型的操作技能,如抓取、放置、開關抽屜等。
在這個最貼近實際應用的測試環境中,WristWorld展現了卓越的性能。不僅生成視頻的質量指標全面領先,更重要的是,這些生成數據確實能夠提升機器人的實際操作能力。平均而言,加入生成數據的機器人在各項任務上的成功率都獲得了15%以上的提升。
八、技術對比:與現有方法的顯著優勢
為了全面評估WristWorld的技術水平,研究團隊與多種現有方法進行了詳細對比。對比方法包括傳統的圖像翻譯技術Pix2Pix、通用視頻生成模型SVD、大規模預訓練模型WoW系列,以及最新的Cosmos-Predict2模型。
在生成質量方面,WristWorld在所有關鍵指標上都取得了顯著優勢。以最重要的時序連貫性指標FVD為例,在Franka Panda平臺上,WristWorld達到231.43,而需要首幀輸入的最佳對比方法Cosmos-Predict2為1156.69,WoW 14B為985.99。這意味著WristWorld在完全不需要額外輸入的情況下,生成質量比現有最佳方法提升了4-5倍。
在感知質量方面,LPIPS指標反映了生成畫面與真實畫面在人類感知上的差異。WristWorld在該指標上達到0.33,明顯優于所有對比方法。這表明WristWorld生成的畫面不僅在客觀指標上表現優異,在主觀視覺效果上也更加真實可信。
結構相似度SSIM指標衡量的是畫面結構的保持程度。WristWorld在該指標上達到0.78,同樣領先所有對比方法。這說明生成的手腕視角畫面能夠準確保持原始場景的空間結構和物體布局,避免了常見的幾何扭曲和結構錯誤。
更重要的是,WristWorld是唯一一個不需要手腕視角首幀輸入的方法。其他高性能方法如SVD、Cosmos-Predict2、WoW 14B都需要提供手腕視角的第一幀畫面作為生成的起點,這在實際應用中往往難以獲得。WristWorld完全基于外部攝像頭畫面進行生成,大大提高了技術的實用性和適用范圍。
九、應用前景:技術突破帶來的廣闊可能
WristWorld技術的成功為機器人學習領域開辟了新的發展方向。最直接的應用是數據增強。現有的機器人數據庫雖然規模龐大,但手腕視角數據稀缺的問題一直制約著機器人精細操作能力的提升。通過WristWorld技術,研究人員可以將現有的外部視角數據"翻譯"成手腕視角數據,瞬間將可用的訓練數據量擴大數倍。
在機器人訓練方面,這項技術將顯著提升訓練效率和效果。傳統的機器人學習往往需要收集大量的第一人稱視角演示數據,這不僅成本高昂,而且容易受到拍攝角度、光照條件等因素影響。有了WristWorld技術,研究人員可以主要收集更容易獲得的外部視角數據,然后自動生成對應的手腕視角數據,大大降低數據收集的難度和成本。
在工業應用方面,這項技術有望推動機器人在精密制造、醫療手術、食品加工等需要精細操作的領域的應用。這些領域的任務往往需要機器人具備類似人手的精細操控能力,而這正是手腕視角數據能夠提供的關鍵信息。通過WristWorld技術生成的訓練數據,機器人可以更好地學習這些復雜的操作技能。
對于機器人研究的民主化也具有重要意義。過去,只有擁有復雜多攝像頭系統的大型研究機構才能收集到高質量的多視角機器人數據。現在,即使是資源有限的研究團隊,也可以通過簡單的外部攝像頭收集數據,然后利用WristWorld技術生成所需的手腕視角數據,大大降低了機器人研究的技術門檻。
十、技術細節:深入理解實現機制
從算法架構來看,WristWorld采用了端到端的學習框架,但在內部實現上卻是精心設計的多模塊協作系統。重建階段的核心是擴展的VGGT模型,這是一個專門處理多視角幾何關系的大型神經網絡。原始VGGT主要用于一般性的多視角3D重建,研究團隊為其添加了專門的手腕預測模塊。
這個手腕預測模塊采用了注意力機制設計,能夠自動關注到與手腕運動最相關的視覺特征。通過學習大量的機器人操作數據,該模塊能夠識別出手臂的運動模式,并據此推斷手腕的位置和朝向。這種推斷不是簡單的模板匹配,而是基于對機器人運動學和動力學的深度理解。
空間投影一致性損失函數的設計體現了研究團隊的創新思維。傳統的監督學習需要大量標注數據,但手腕位置的精確標注極其困難且成本高昂。研究團隊巧妙地利用幾何約束來構建自監督學習框架。具體來說,如果手腕位置預測正確,那么通過該位置投影到手腕視角的畫面應該與實際的手腕視角畫面在對應點上保持一致。
這個約束看似簡單,但實現起來需要解決許多技術細節。首先是對應點的建立,系統需要在外部視角和手腕視角之間建立密集的像素級對應關系。然后是投影計算,需要準確計算三維點在不同攝像頭坐標系下的投影位置。最后是一致性評估,需要設計合適的度量函數來評估投影一致性。
生成階段的擴散變換器同樣經過了精心定制。標準的視頻擴散模型主要處理自然視頻,而機器人操作視頻有其特殊性:物體邊界清晰、運動軌跡相對規律、空間關系約束強。研究團隊針對這些特點對模型進行了專門優化。
條件輸入的設計是生成階段的另一個關鍵創新。系統不僅使用重建階段得到的幾何條件圖,還同時融合了外部視角的語義信息。這種多模態條件融合確保了生成畫面既在幾何結構上準確,又在語義內容上豐富。CLIP編碼器負責提取語義特征,而幾何條件圖提供空間結構約束,兩者協同工作產生高質量的生成結果。
十一、實驗深度分析:數據說話的科學驗證
實驗設計的科學性和全面性是WristWorld技術可信度的重要保證。研究團隊采用了多層次的評估體系,從不同角度驗證技術的有效性。
定量評估方面,研究團隊選擇了四個核心指標:FVD衡量時序連貫性、LPIPS評估感知質量、SSIM測量結構相似度、PSNR反映像素級準確性。這四個指標從不同維度全面評估了生成視頻的質量,形成了完整的評估體系。
值得注意的是,這些指標并非孤立存在,而是相互補充、相互驗證的。例如,高PSNR值表明像素級還原準確,但可能會犧牲感知自然度;而高SSIM值說明結構保持良好,但可能在細節紋理上有所不足。WristWorld在所有指標上的全面領先,說明其在各個維度上都達到了優異水平,實現了質量的全面提升。
定性評估方面,研究團隊展示了大量的視覺對比結果。這些對比不是挑選最好的結果展示,而是在標準測試集上的系統性比較。從展示的結果可以看出,WristWorld生成的手腕視角畫面在物體邊界清晰度、運動連貫性、光照一致性等方面都明顯優于對比方法。
特別值得關注的是遮擋處理能力的對比。在機器人操作過程中,手臂經常會遮擋操作對象,這對視角轉換技術提出了極大挑戰。對比結果顯示,WristWorld能夠合理處理這種遮擋情況,在手腕視角中正確顯示被外部視角遮擋的物體部分,而其他方法往往在這種情況下產生明顯的錯誤或缺失。
下游任務評估提供了最直接的應用價值驗證。研究團隊將生成的手腕視角數據用于訓練實際的機器人操作策略,然后評估策略的性能提升。這種評估方式比單純的視頻質量評估更能反映技術的實際價值。
在Calvin環境中,連續任務完成測試尤其具有挑戰性。機器人需要依次完成"關閉抽屜→拿起物體→打開抽屜→放入物體→關閉抽屜"這樣的復雜任務序列。任何一個環節的失敗都會導致整個序列的終止。實驗結果顯示,加入WristWorld生成數據后,機器人在各個任務節點上的成功率都有所提升,累積效應使得完成全部任務序列的成功率獲得了顯著改善。
十二、局限性分析:誠實面對技術邊界
盡管WristWorld技術取得了顯著突破,但研究團隊也誠實地分析了技術的當前局限性。這種科學態度不僅體現了研究的嚴謹性,也為后續改進指明了方向。
首先是對極端光照條件的處理能力。當操作環境的光照條件發生劇烈變化,或者出現強烈陰影、反光等情況時,系統的空間重建精度會受到一定影響。這是因為視覺幾何重建本質上依賴于圖像特征的穩定性,而極端光照條件會影響特征提取的一致性。
其次是對高速運動的處理能力。雖然WristWorld在一般操作速度下表現優異,但在處理非常快速的手臂運動時,可能會出現輕微的運動模糊或跟蹤延遲。這主要是由于視頻幀率的限制和運動建模的復雜性所致。
對于全新類型物體的處理也存在挑戰。WristWorld的訓練數據主要來源于常見的操作物體,對于訓練時未見過的全新物體類型,系統的泛化能力可能會有所下降。不過,這個問題隨著訓練數據的增加會逐步改善。
計算資源需求是另一個需要考慮的因素。WristWorld涉及復雜的3D重建和視頻生成計算,對GPU資源有較高要求。雖然這在研究環境中不成問題,但在資源受限的實際應用場景中可能需要進行模型壓縮或硬件優化。
此外,系統目前主要針對單臂機器人進行了優化,對于雙臂協作或多機器人協同操作的場景,還需要進一步的技術擴展和驗證。
說到底,WristWorld技術為機器人學習領域帶來了一個重要突破——讓機器人能夠通過"想象"獲得更精準的操作視角。就像給機器人裝上了空間轉換的"想象力",讓它能從旁觀者的角度推測出操作者的精確視野。這項由北京大學聯合多所知名高校完成的研究,不僅解決了機器人訓練數據稀缺的實際問題,更為整個機器人學習領域開辟了新的技術路徑。
從技術角度看,WristWorld的兩階段設計——空間重建加視頻生成——為復雜的視角轉換問題提供了一個優雅的解決方案。通過巧妙的空間投影一致性約束和多模態條件融合,系統實現了既幾何準確又語義豐富的高質量視角轉換。
從應用價值看,這項技術有望顯著降低機器人學習的數據收集成本,提升機器人在精細操作任務上的學習效果,推動機器人技術在更多實際場景中的應用。對于那些需要精密操控的工業應用來說,這種技術突破可能具有變革性的意義。
當然,任何技術都有其局限性和改進空間。WristWorld在極端條件處理、計算效率優化、場景泛化能力等方面還有進一步提升的潛力。但作為一個開創性的技術突破,它已經為機器人視覺學習開辟了一條全新的道路。
對于有興趣深入了解技術細節的讀者,可以通過arXiv平臺查詢論文編號arXiv:2510.07313v1來獲取完整的研究論文。這項技術的開源代碼也即將發布,將為更多研究人員和開發者提供實用工具,推動整個領域的快速發展。
Q&A
Q1:WristWorld是什么?它能解決什么問題?
A:WristWorld是北京大學等高校開發的機器人視角轉換技術,能夠通過外部攝像頭畫面自動生成機器人手腕視角的操作視頻。它解決了機器人訓練數據中外部視角豐富但手腕視角稀缺的問題,讓機器人能更好地學習精細操作技能。
Q2:WristWorld技術與現有方法相比有什么優勢?
A:WristWorld最大的優勢是完全不需要手腕視角的首幀輸入,僅憑外部攝像頭畫面就能生成高質量的手腕視角視頻。在視頻質量指標上,它比現有最佳方法提升了4-5倍,同時生成的數據能顯著提升機器人的實際操作能力。
Q3:WristWorld技術有哪些實際應用前景?
A:WristWorld可以大大降低機器人訓練數據的收集成本,提升訓練效率。在工業制造、醫療手術、食品加工等需要精細操作的領域有廣闊應用前景。同時它還能讓資源有限的研究團隊也能獲得高質量的多視角機器人數據,推動機器人研究的民主化。





京公網安備 11011402013531號