Problem
目前的視覺語言模型(VLM)在 3D 具身環境的部署面臨四大困境:現有評測基準缺乏動態交互作用、忽視深度感知、依賴特權狀態資訊而非純視覺輸入,且人工評估成本高昂難以規模化,導致無法準確衡量模型在複雜環境中的真實能力。
Method
研究團隊開發了 PokeGym 評測基準,以 3D 開放世界遊戲《寶可夢傳說 Z-A》為環境。該系統落實程式碼層級的隔離,代理人僅能依據原始 RGB 影像觀測作決策,並由獨立評估器透過記憶體掃描自動判定成功與否。基準包含 30 項涵蓋導航與互動的長程任務,並設計三種不同粒度的指令,藉此系統化解析模型的視覺對齊、語義推理與自主探索能力。
Results
實驗發現現有 VLM 的主要瓶頸並非高階規劃,而是「實體死結(physical deadlock)」的恢復能力。研究更揭示了元認知差異:弱模型通常處於「無意識死結」,即完全未察覺受困;而強模型雖能表現出「有意識死結」,即便辨識出受困仍無法有效脫困,反映出模型普遍缺乏空間直覺。
Significance
這項研究為 VLM 在 3D 長程任務的表現提供了嚴謹且具擴充性的評估框架。它明確指出空間感知的缺失是當前具身智慧發展的核心障礙,為未來模型架構應如何整合空間直覺提供了關鍵的指引方向。