LVOmniBench 登場：挑戰全模態大模型極限，引領長篇影音理解與跨模態評測新標準

為解決現有模型僅能處理短影音的侷限，本研究推出 LVOmniBench 評測基準，涵蓋長達 90 分鐘的高品質資料與手工標註問答，揭示當前模型在長時記憶與時間定位上的巨大挑戰。

Problem

目前的「全模態大語言模型（OmniLLMs）」評測大多侷限於 10 秒至 5 分鐘的短片，無法滿足現實應用中動輒數十分鐘的長影音需求，導致模型在處理複雜的長時跨模態資訊時，缺乏有效的衡量指標。

開發者推出全新評測基準 LVOmniBench，精選 275 部時長 10 至 90 分鐘的高品質影音，並透過嚴謹的人工標註產生 1,014 組問答對（QA pairs）。該基準專注於測試模型的長時記憶、時間定位、細粒度理解與多模態感知能力。

實驗顯示當前模型處理長篇影音仍面臨極大挑戰。開源模型的準確率普遍低於 35%，即便性能最頂尖的 Gemini 3 Pro 準確率也僅約 65%，證明現有技術在長時間影音理解與複雜資訊檢索上仍有顯著的提升空間。

這項研究填補了長篇影音評測的空白，不僅為學界提供具備高度挑戰性的基準測試，也為未來開發能處理複雜現實場景、具備優異跨模態理解能力的先進人工智慧模型提供重要參考與指引。