Problem

現有的統一世界模型(如 UWM)大多受限於 2D 像素空間,且在生成高品質影像時,往往因為計算量過大而難以兼顧機器人動作執行的即時性。如何在維持高精細度 4D 環境重建(影片加 3D 結構)的同時,確保機器人能快速反應並精準執行動作,是當前具身人工智慧面臨的主要挑戰。

Method

研究團隊開發了 X-WAM 框架,利用預訓練視訊擴散模型的強大先驗來預測多視角 RGB-D 影片。該方法引入「輕量化結構適配」,透過複製擴散變換器(DiT)的最後數個區塊建立專用的深度預測分支。此外,提出的「異步噪聲採樣(ANS)」技術在推論時允許動作解碼以較少步數快速完成,而影像生成則使用完整的去噪序列,從而在訓練與推論之間達成效率與品質的平衡。

Results

經過超過 5,800 小時的機器人資料預訓練,X-WAM 在 RoboCasa 與 RoboTwin 2.0 基準測試中分別達到 79.2% 與 90.7% 的平均成功率。實驗結果顯示,X-WAM 在視覺真實度與幾何重建指標上均優於現有模型,能產出高品質的 4D 預測結果並精確控制機器人。

Significance

此項研究證明了 4D 空間資訊對提升機器人操作能力的關鍵作用。透過異步去噪機制,模型突破了生成式架構在實時控制上的效能瓶頸,為未來開發具備物理理解力且能即時與複雜世界互動的通用機器人模型提供了重要路徑。