Problem
影片推理模型需要在連續畫面中準確定位並追蹤相關證據。儘管強化學習能提升準確度,但仍難以達成可靠的時空落地(spatio-temporal grounding)。此外,現有改善落地能力的方法通常依賴擴增訓練資料或在推論時使用外部感知工具,導致標註與運算成本大幅增加。
Method
提出 VisionCoach 輸入自適應強化學習框架,包含「視覺提示選擇器」與「時空推理器」兩大元件。訓練期間,系統會針對困難輸入套用視覺提示,放大相關證據並抑制干擾物,並結合物件感知的落地獎勵進行最佳化。隨後透過自我蒸餾(self-distillation)技術,讓模型將增強的推理能力內化。
Results
在 V-STAR、VideoMME、World-Sense 等多項影片推理、理解與時間落地基準測試中,VisionCoach 在同等設定下均達到最先進(SOTA)的表現。同時,模型維持了單一且高效的推論路徑,過程完全不需依賴外部感知工具。
Significance
本研究證明在訓練階段引入視覺提示能有效強化影片的落地推理能力,並首創利用自我蒸餾讓模型內化此能力。這使得模型在推論時不僅能擺脫外部工具的束縛,更成功在運算效率與推理精準度之間取得最佳平衡。