Problem

目前的潛在世界模型(如 V-JEPA)雖能預測未來狀態,但受限於短時間觀測窗,容易陷入局部、低階的外推,缺乏長時序語義。而視覺語言模型(VLM)雖具備通識推理能力,卻因稀疏採樣與語言輸出限制,難以直接應用於高精度的密集預測任務,且在適應小規模動作條件資料集時存在落差。

Method

提出 ThinkJEPA 框架,採用「雙時序路徑」架構:一條是負責精細動作建模的密集 JEPA 分支,另一條則是作為「思考者」的 VLM 分支,透過較大的時間步長提供知識豐富的語義引導。此外,設計了「階層式金字塔特徵提取模組」,將 VLM 的多層推理訊號整合為可與潛在預測相容的引導特徵。

Results

在手部操作軌跡預測實驗中,ThinkJEPA 的表現顯著優於強大的純 VLM 基線與純 JEPA 預測器。實驗數據證明,該方法在長時序的推演行為中展現出更高的穩健性,能生成更符合物理邏輯與語義脈絡的連續預測結果。

Significance

這項研究成功彌補了感知型世界模型與推理型大語言模型間的鴻溝,為開發具備深層語義理解且能進行精確物理動態預測的具身智慧系統提供了新的技術路徑,對於機器人複雜任務規劃具有高度應用價值。