行動影像：透過多視角影片生成技術實現機器人端到端策略學習的革新框架

本研究提出「行動影像」架構，將機器人動作轉化為具備像素基礎的多視角影片，使預訓練影片模型能直接作為決策策略，在跨環境與零樣本學習任務中展現優異效能。

Problem

目前的機器人世界動作模型（WAMs）多依賴獨立的動作模組或非像素對齊的動作表示法。這種做法難以完全發揮預訓練影片模型的龐大知識潛力，且在處理不同視角或新環境的遷移任務時，往往會面臨嚴重的效能瓶頸與表徵落差。

開發名為「行動影像」（Action Images）的統一模型，將 7 自由度機器人指令轉換為可解釋的 2D 像素影片。透過將機器手臂的運動軌跡直接嵌入多視角影像空間，影片生成模型本身即可擔任決策核心，無需額外的策略標頭，並支援動作條件下的影片生成與標註。

在 RLBench 模擬環境與真實場景評估中，該模型取得了最強的零樣本（Zero-shot）成功率。此外，該模型在影片與動作的共同生成品質上，顯著優於過往基於影片空間的技術，證明了像素級動作表示法在決策上的顯著優勢。

這項研究展示了將控制指令與視覺資訊統一在共享表徵下的巨大潛力。這種將動作「影像化」的創新路徑，為開發更具泛化能力、能精確理解空間幾何關係的機器人基礎模型開闢了全新的技術方向。