Problem

現有的非同步推論方法雖然提升了機器人動作的平滑度,卻往往忽視應對環境變化的即時反應能力。傳統基於流匹配(Flow-based)的視覺語言動作模型(VLA)必須在完成所有取樣步驟後才能開始移動,導致反應時間受到「首個動作產生時間(TTFA)」與執行長度的嚴重限制,形成硬體部署上的效能瓶頸。

Method

研究團隊開發了 FASTER(Fast Action Sampling for ImmediaTE Reaction)框架,引入「視野感知時程表(Horizon-Aware Schedule)」,在 Flow 取樣過程中動態調整權重,優先處理近期動作。此方法將初始反應的去噪步驟從多次壓縮至僅需一步,並結合串流式用戶端—伺服器管線,大幅優化資料傳輸與運算效率。

Results

在 π_{0.5} 與 X-VLA 等主流模型上的實驗顯示,FASTER 成功將反應去噪步數縮減十倍,顯著降低了在消費級 GPU 上的有效反應延遲。實際機器人測試(包含極具挑戰的高動態桌球任務)證實,該系統能在維持動作軌跡平滑度與精確度的同時,展現前所未有的即時響應能力。

Significance

這項研究為通才型機器人策略在實體世界的部署掃除障礙。透過重新思考動作分塊策略中的反應機制,FASTER 證明了僅需演算法優化,就能讓一般硬體具備處理極高動態任務的潛力,對於推動機器人進入複雜且多變的人類生活環境具有關鍵意義。