FASTER：突破即時視覺語言動作模型限制，實現機器人毫秒級環境反應

這項研究針對視覺語言動作模型（VLA）反應延遲問題，提出 FASTER 框架，透過視野感知時程表與串流管線，在不犧牲軌跡品質下將反應延遲縮減十倍，成功挑戰桌球等高動態任務。

Problem

現有的非同步推論方法雖然提升了機器人動作的平滑度，卻往往忽視應對環境變化的即時反應能力。傳統基於流匹配（Flow-based）的視覺語言動作模型（VLA）必須在完成所有取樣步驟後才能開始移動，導致反應時間受到「首個動作產生時間（TTFA）」與執行長度的嚴重限制，形成硬體部署上的效能瓶頸。

Method

研究團隊開發了 FASTER（Fast Action Sampling for ImmediaTE Reaction）框架，引入「視野感知時程表（Horizon-Aware Schedule）」，在 Flow 取樣過程中動態調整權重，優先處理近期動作。此方法將初始反應的去噪步驟從多次壓縮至僅需一步，並結合串流式用戶端—伺服器管線，大幅優化資料傳輸與運算效率。

Results

在 π_{0.5} 與 X-VLA 等主流模型上的實驗顯示，FASTER 成功將反應去噪步數縮減十倍，顯著降低了在消費級 GPU 上的有效反應延遲。實際機器人測試（包含極具挑戰的高動態桌球任務）證實，該系統能在維持動作軌跡平滑度與精確度的同時，展現前所未有的即時響應能力。

Significance

這項研究為通才型機器人策略在實體世界的部署掃除障礙。透過重新思考動作分塊策略中的反應機制，FASTER 證明了僅需演算法優化，就能讓一般硬體具備處理極高動態任務的潛力，對於推動機器人進入複雜且多變的人類生活環境具有關鍵意義。