Problem
現有的自動駕駛視覺語言模型多半僅用於場景描述或邏輯推理,缺乏根據使用者多樣化指令進行動作規劃的靈活性,導致系統難以實現真正的個性化駕駛與互動。
Method
研究團隊首先建構了包含 10 萬個場景的大規模資料集 InstructScene。接著提出 Vega 模型,該模型採用自迴歸範式處理視覺與語言輸入,並結合擴散模型來生成未來預測(世界建模)與行動軌跡。
Results
大量實驗證實,Vega 在規劃性能上表現卓越,並展現出極強的指令跟隨能力,能精準地將自然語言指示轉化為實際的駕駛行為,在複雜場景中維持高度的穩定性。
Significance
這項研究成功讓自駕系統能「聽懂」人類指令,不僅提升了駕駛系統的智慧化程度,也為未來個人化行動服務與人機協作駕駛奠定了重要的技術基礎。