PokeGym：基於 3D 開放世界遊戲的視覺語言模型長程評測基準，揭示 VLM 空間直覺缺失

研究推出 PokeGym 評測基準，利用《寶可夢傳說 Z-A》的 3D 環境，透過純視覺觀測與自動化評估，揭露現有 VLM 在實體死結恢復與空間直覺上的關鍵缺陷。

Problem

目前的視覺語言模型（VLM）在 3D 具身環境的部署面臨四大困境：現有評測基準缺乏動態交互作用、忽視深度感知、依賴特權狀態資訊而非純視覺輸入，且人工評估成本高昂難以規模化，導致無法準確衡量模型在複雜環境中的真實能力。

Method

研究團隊開發了 PokeGym 評測基準，以 3D 開放世界遊戲《寶可夢傳說 Z-A》為環境。該系統落實程式碼層級的隔離，代理人僅能依據原始 RGB 影像觀測作決策，並由獨立評估器透過記憶體掃描自動判定成功與否。基準包含 30 項涵蓋導航與互動的長程任務，並設計三種不同粒度的指令，藉此系統化解析模型的視覺對齊、語義推理與自主探索能力。

Results

實驗發現現有 VLM 的主要瓶頸並非高階規劃，而是「實體死結（physical deadlock）」的恢復能力。研究更揭示了元認知差異：弱模型通常處於「無意識死結」，即完全未察覺受困；而強模型雖能表現出「有意識死結」，即便辨識出受困仍無法有效脫困，反映出模型普遍缺乏空間直覺。

Significance

這項研究為 VLM 在 3D 長程任務的表現提供了嚴謹且具擴充性的評估框架。它明確指出空間感知的缺失是當前具身智慧發展的核心障礙，為未來模型架構應如何整合空間直覺提供了關鍵的指引方向。