iWorld-Bench：建立統一動作生成框架與大規模資料集，填補互動式世界模型評測空白

本研究開發了 iWorld-Bench 基準測試，透過包含 33 萬段影片的多元資料集與統一動作生成框架，為互動式世界模型的感知、推理及物理互動能力提供標準化評估體系。

Problem

現有的通用人工智慧（AGI）研究缺乏大規模資料集與統一基準，難以準確評估互動式世界模型在感知距離、環境推理及物理互動方面的實際表現，限制了智慧代理在複雜環境中的適應能力。

團隊構建了包含 33 萬段影片剪輯的多樣化資料集，並篩選出 2,100 個高品質樣本。同時提出「動作生成框架」以統一不同模型的互動形式，設計了涵蓋視覺生成、軌跡追蹤與記憶能力等 6 類任務，共產生 4,900 個測試樣本。

透過對 14 個代表性世界模型的深入測試，研究識別出當前模型在物理規律理解與長期記憶上的關鍵瓶頸，並建立了公開的 iWorld-Bench 排行榜，為後續研究提供效能基準。

此研究為互動式世界模型提供了首個標準化的測試平台。透過統一的動作評估框架與大規模高品質資料，將有效推動具身智慧（Embodied AI）的發展，並為實現 AGI 的感知與互動目標提供關鍵基礎設施。