Problem
現有的事件相機(Event Camera)運動估計模型高度依賴大規模的合成資料。然而,合成資料與真實場景之間存在顯著的「模擬與現實落差」(sim-to-real gap),導致模型在實際應用時,難以精確處理複雜的物體運動與連續的光學變化。
Method
提出名為 TETO 的教師-學生框架,透過預訓練 RGB 追蹤器的「知識蒸餾」,讓模型僅從約 25 分鐘的無標註真實錄影中學習。該方法結合運動感知資料篩選與查詢取樣策略,將物體運動與相機自體運動解耦,並將預測的點軌跡與稠密光流作為顯式運動先驗,引導預訓練的影像擴散變換器(Diffusion Transformer)進行高品質補幀。
Results
即使訓練資料量減少了數個數量級,TETO 在 EVIMO2 的點追蹤與 DSEC 的光流評測中仍達到領先水準(SOTA)。此外,在 BS-ERGB 與 HQ-EVFI 數據集上的實驗證實,更精準的運動估計能直接轉化為卓越的影像補幀畫質,顯著優於現有的技術方案。
Significance
這項研究證明了透過跨模態學習,能大幅降低事件相機模型對大量標註資料的依賴。這不僅解決了資料獲取成本高的問題,也為高速運動捕捉、低光環境造影及高品質影片重建等領域,提供了更具效率且精準的解決方案。