Problem
現有的自動駕駛視覺語言動作(VLA)模型面臨空間感知與語義推理難以兼顧的困境。直接採用 2D 視覺語言模型會限制其 3D 空間感知能力,而強化空間表徵則往往損害模型原有的語義推理邏輯。這種衝突主要源於模型參數在優化過程中,將感知與推理任務高度耦合所致。
Method
提出的 UniDriveVLA 採用 Transformer 混合專家(Mixture-of-Transformers)架構,透過專家解耦技術將駕駛理解、場景感知與動作規劃三種職能分開處理。系統透過遮罩聯合注意力機制協調專家模組,並結合稀疏感知範式與三階段進階訓練策略,在不犧牲語義推理能力的前提下,顯著提升空間感知的精確度。
Results
實驗證明 UniDriveVLA 在 nuScenes 開放迴路(open-loop)評估與 Bench2Drive 閉迴路(closed-loop)測試中均達到當前最佳性能(SOTA)。此外,該模型在 3D 偵測、線上地圖繪製、運動預測及駕駛導向的視覺問答(VQA)等多項任務中亦展現出極強的泛化能力與準確性。
Significance
該研究成功建立了一個多功能的統一模型框架,有效解決了自動駕駛系統中感知與認知之間的技術權衡(Trade-off)。透過有效的專家分工,為未來開發具備高度常識推理與精確導航能力的通用駕駛人工智慧奠定了重要基礎。