Problem
目前的「全模態大語言模型(OmniLLMs)」評測大多侷限於 10 秒至 5 分鐘的短片,無法滿足現實應用中動輒數十分鐘的長影音需求,導致模型在處理複雜的長時跨模態資訊時,缺乏有效的衡量指標。
Method
開發者推出全新評測基準 LVOmniBench,精選 275 部時長 10 至 90 分鐘的高品質影音,並透過嚴謹的人工標註產生 1,014 組問答對(QA pairs)。該基準專注於測試模型的長時記憶、時間定位、細粒度理解與多模態感知能力。
Results
實驗顯示當前模型處理長篇影音仍面臨極大挑戰。開源模型的準確率普遍低於 35%,即便性能最頂尖的 Gemini 3 Pro 準確率也僅約 65%,證明現有技術在長時間影音理解與複雜資訊檢索上仍有顯著的提升空間。
Significance
這項研究填補了長篇影音評測的空白,不僅為學界提供具備高度挑戰性的基準測試,也為未來開發能處理複雜現實場景、具備優異跨模態理解能力的先進人工智慧模型提供重要參考與指引。