應對自動駕駛長尾場景：KITScenes LongTail 資料集透過多國語言推理軌跡強化模型泛化能力

本研究推出 KITScenes LongTail 資料集，透過多視角影像與多國語言推理軌跡，專注解決自駕系統在罕見場景下的泛化挑戰，並為多模態模型建立全新的語意連貫性評測基準。

Problem

自動駕駛系統在處理現實世界中極端或罕見的「長尾」場景時，往往面臨泛化能力不足的挑戰。此外，現有的評估指標大多侷限於安全與舒適性，缺乏對模型決策過程、語意連貫性以及複雜指令遵循能力的深度檢測。

研究團隊開發了 KITScenes LongTail 資料集，提供包含多視角影片、路徑軌跡與高層級指令的端到端駕駛資料。其核心特色在於引入由具備多元文化背景的領域專家所撰寫，涵蓋英、西、中三種語言的詳細推理軌跡，藉此支援情境學習（In-context Learning）與少樣本泛化技術。

此資料集為 VLM 與 VLA 等多模態模型建立了一套新型基準測試，評估範疇從傳統的物理指標擴展至指令遵循與輸出語意的一致性。實驗結果顯示，透過專家提供的推理軌跡，模型能更有效地理解駕駛情境，並顯著提升在複雜長尾事件中的應變能力。

本研究不僅提供了研究推理形式如何影響駕駛能力的獨特資源，更透過多國語言的專家見解，為開發具備跨文化適應力且能理解駕駛邏輯的次世代自動駕駛系統奠定基礎，對提升自駕車的普及性與可靠度具有重要貢獻。