統一時空標記評分技術：實現高效視訊多模態語言模型的大幅加速與性能平衡

本研究提出 STTS 模組，透過統一的時空標記評分機制，在不依賴文字引導的情況下，大幅精簡視訊標記，在維持極高準確度的同時，顯著提升模型的運算效率。

Problem

視訊多模態語言模型（VLM）因處理大量影格而面臨極高的運算負擔。現有的標記（Token）刪減方法通常僅侷限於單一模組（ViT 或 LLM），且往往需要複雜的文字引導機制，難以在效率與效能間取得最佳平衡。

提出「時空標記評分」（STTS）技術，這是一個輕量化模組，能同時在 ViT 與 LLM 中進行視覺標記精簡。該方法透過輔助損失函數學習時間維度的評分，並利用 LLM 梯度學習空間維度的評分，搭配高效的打包演算法，實現全架構的端到端標記篩選，且無需進行標記合併。

在 13 項長短視訊問答任務中，STTS 成功刪減了 50% 的視覺標記，使訓練與推理效率提升達 62%，而平均準確度僅微幅下降 0.7%。在處理長影片時，該技術甚至能透過測試時縮放（Test-time scaling）比基準模型進一步提升 0.5% 至 1% 的效能。

此研究為視訊 VLM 提供了一種簡潔且有效的統一標記精簡方案。它證明了無需複雜的文字條件，即可在整個模型架構中實現高度效率化，對於推動長影片分析與即時多模態應用的普及具有重要學術與實務價值。