Problem

目前的視覺編碼器在與多模態大語言模型(MLLM)整合時,通常依賴複雜的對比學習或額外解碼器。這種設計使視覺特徵與語言模型的自迴歸生成邏輯之間存在隔閡,且在處理細節敏感的任務時,往往難以有效發揮視覺資訊的潛力。

Method

提出名為 GenLIP 的簡約生成式預訓練框架,讓 Vision Transformer (ViT) 直接從視覺標記預測語言標記。該方法捨棄了傳統的對比學習,僅採用單一 Transformer 結構與標準語言模型目標,並針對原生長寬比的多解析度影像進行持續訓練。

Results

實驗證明,GenLIP 在 Recap-DataComp-1B 資料集上僅需較少的預訓練樣本,即可達到或超越現有強大的基準模型。特別在 OCR 文字辨識與圖表理解等細節任務中,GenLIP 展現出極具競爭力的精準度與效能。

Significance

此研究簡化了跨模態模型的設計架構,證明了生成式預訓練在視覺領域的強大擴充性。GenLIP 為未來視覺編碼器與大語言模型的深度對齊提供了新方向,是開發高效能多模態基礎模型的重要進展。