Problem

現有的視覺語言模型(VLM)大多依賴單一對比式編碼器(如 CLIP),雖然這類編碼器擅長跨模態對齊與檢索,卻往往缺乏細緻的語義資訊。相對而言,自我監督視覺編碼器(如 DINO)雖能捕捉豐富的局部特徵與強健的視覺理解力,但如何將這兩種互補的特徵有效擴展並融合至現有的視覺語言流程中,仍是待解決的技術瓶頸。

Method

開發名為 CoME-VL 的模組化融合框架,旨在整合 CLIP 與 DINO 兩種視覺編碼器的優勢。技術亮點包含:(1) 透過熵引導的多層聚合與正交約束投影來減少資訊冗餘;(2) 採用強化旋轉位置嵌入(RoPE)的交叉注意力機制,用以對齊異質的標記格柵(token grids)並生成精簡的融合視覺標記。最終,這些標記能以極低改動成本注入僅解碼器架構的大型語言模型(LLM)。

Results

實驗結果顯示,CoME-VL 在多項視覺語言基準測試中一致優於單編碼器基準模型。具體而言,在視覺理解任務上平均提升了 4.9%,定位任務則提升 5.4%。此外,該模型在 RefCOCO 偵測任務上達到目前的領先水準(SOTA),顯著超越了現有的基準線。消融實驗進一步證實了非冗餘特徵混合與融合容量對效能的正向影響。

Significance

這項研究證實了多編碼器表徵融合的擴展潛力,證明整合不同訓練目標的視覺訊號能顯著強化模型的感知深度。這為未來建構更強大、更精準的多模態 AI 系統提供了明確的技術路徑,特別是在需要高精度物體定位與複雜場景理解的應用場景中。