Vega：融合語言指令與擴散模型，開啟具備指令跟隨能力的自動駕駛新範式

本研究推出 Vega 模型，透過全新的 InstructScene 資料集，讓自駕系統能聽從多樣化指令。模型結合自迴歸與擴散技術，不僅提升規劃效能，更實現了高度個性化的智慧駕駛體驗。

Problem

現有的自動駕駛視覺語言模型多半僅用於場景描述或邏輯推理，缺乏根據使用者多樣化指令進行動作規劃的靈活性，導致系統難以實現真正的個性化駕駛與互動。

研究團隊首先建構了包含 10 萬個場景的大規模資料集 InstructScene。接著提出 Vega 模型，該模型採用自迴歸範式處理視覺與語言輸入，並結合擴散模型來生成未來預測（世界建模）與行動軌跡。

大量實驗證實，Vega 在規劃性能上表現卓越，並展現出極強的指令跟隨能力，能精準地將自然語言指示轉化為實際的駕駛行為，在複雜場景中維持高度的穩定性。

這項研究成功讓自駕系統能「聽懂」人類指令，不僅提升了駕駛系統的智慧化程度，也為未來個人化行動服務與人機協作駕駛奠定了重要的技術基礎。