Problem

目前的分割模型(如 LISA)受限於訓練資料的截止時間點,難以處理現實世界中不斷產生的新實體(Novel Entities),或是需要結合當前外部資訊才能精確辨識的新興實體(Emerging Entities),導致模型在面對即時新聞或新科技應用時表現不佳。

Method

提出 ROSE 即時檢索增強框架,包含四大核心組件:首先透過「網路檢索增強生成」獲取即時資訊,再利用「文字提示增強器」豐富背景知識,並藉由「視覺提示增強器」引入網路圖像以補足模型對新實體的認知缺口,最後由 WebSense 模組智慧判斷是否需要啟用檢索機制以維持效率。

Results

實驗結果顯示,ROSE 在全新建立的 NEST 基準測試中表現優異,與基於強大模型 Gemini-2.0 Flash 的檢索基準相比,其通用交併比(gIoU)大幅提升了 19.2 個百分點,證明了該框架能有效增強多模態模型在複雜場景下的感知力。

Significance

這項研究定義了「新興實體分割任務」,並提供了一個自動化的評估基準。ROSE 作為一個隨插即用的框架,證明了外掛式檢索能有效解決多模態大型語言模型的知識滯後問題,對於開發具備時事感知能力的 AI 視覺系統具有重要的參考價值。