讓 ViT 開口說話：GenLIP 簡約生成式預訓練框架，大幅提升多模態大語言模型效能

本研究提出 GenLIP 框架，捨棄對比學習與額外解碼器，讓 ViT 直接預測語言標記，使視覺編碼器更貼合語言模型的自迴歸特性，在 OCR 與圖表理解等測試中表現卓越。

Problem

目前的視覺編碼器在與多模態大語言模型（MLLM）整合時，通常依賴複雜的對比學習或額外解碼器。這種設計使視覺特徵與語言模型的自迴歸生成邏輯之間存在隔閡，且在處理細節敏感的任務時，往往難以有效發揮視覺資訊的潛力。

提出名為 GenLIP 的簡約生成式預訓練框架，讓 Vision Transformer (ViT) 直接從視覺標記預測語言標記。該方法捨棄了傳統的對比學習，僅採用單一 Transformer 結構與標準語言模型目標，並針對原生長寬比的多解析度影像進行持續訓練。

實驗證明，GenLIP 在 Recap-DataComp-1B 資料集上僅需較少的預訓練樣本，即可達到或超越現有強大的基準模型。特別在 OCR 文字辨識與圖表理解等細節任務中，GenLIP 展現出極具競爭力的精準度與效能。

此研究簡化了跨模態模型的設計架構，證明了生成式預訓練在視覺領域的強大擴充性。GenLIP 為未來視覺編碼器與大語言模型的深度對齊提供了新方向，是開發高效能多模態基礎模型的重要進展。