TETO：透過教師觀測提升事件相機運動估計，僅需極少真實資料即達成卓越補幀效果

本研究提出 TETO 框架，利用知識蒸餾從少量無標註真實影片學習事件運動估計，成功克服模擬與現實落差，並在點追蹤與影像補幀任務中取得領先效能。

Problem

現有的事件相機（Event Camera）運動估計模型高度依賴大規模的合成資料。然而，合成資料與真實場景之間存在顯著的「模擬與現實落差」（sim-to-real gap），導致模型在實際應用時，難以精確處理複雜的物體運動與連續的光學變化。

Method

提出名為 TETO 的教師-學生框架，透過預訓練 RGB 追蹤器的「知識蒸餾」，讓模型僅從約 25 分鐘的無標註真實錄影中學習。該方法結合運動感知資料篩選與查詢取樣策略，將物體運動與相機自體運動解耦，並將預測的點軌跡與稠密光流作為顯式運動先驗，引導預訓練的影像擴散變換器（Diffusion Transformer）進行高品質補幀。

Results

即使訓練資料量減少了數個數量級，TETO 在 EVIMO2 的點追蹤與 DSEC 的光流評測中仍達到領先水準（SOTA）。此外，在 BS-ERGB 與 HQ-EVFI 數據集上的實驗證實，更精準的運動估計能直接轉化為卓越的影像補幀畫質，顯著優於現有的技術方案。

Significance

這項研究證明了透過跨模態學習，能大幅降低事件相機模型對大量標註資料的依賴。這不僅解決了資料獲取成本高的問題，也為高速運動捕捉、低光環境造影及高品質影片重建等領域，提供了更具效率且精準的解決方案。