Problem
現有的通用人工智慧(AGI)研究缺乏大規模資料集與統一基準,難以準確評估互動式世界模型在感知距離、環境推理及物理互動方面的實際表現,限制了智慧代理在複雜環境中的適應能力。
Method
團隊構建了包含 33 萬段影片剪輯的多樣化資料集,並篩選出 2,100 個高品質樣本。同時提出「動作生成框架」以統一不同模型的互動形式,設計了涵蓋視覺生成、軌跡追蹤與記憶能力等 6 類任務,共產生 4,900 個測試樣本。
Results
透過對 14 個代表性世界模型的深入測試,研究識別出當前模型在物理規律理解與長期記憶上的關鍵瓶頸,並建立了公開的 iWorld-Bench 排行榜,為後續研究提供效能基準。
Significance
此研究為互動式世界模型提供了首個標準化的測試平台。透過統一的動作評估框架與大規模高品質資料,將有效推動具身智慧(Embodied AI)的發展,並為實現 AGI 的感知與互動目標提供關鍵基礎設施。