Problem
現有的多模態影像生成系統通常需要對自動回歸模型與擴散模型進行複雜的深度融合,或是面臨從頭開始訓練的龐大計算壓力,這使得模型難以有效繼承預訓練視覺語言模型(VLM)所具備的深層語義理解與推理能力。
Method
本研究提出 MMCORE 統一框架,利用預訓練 VLM 搭配「可學習查詢標記」(learnable query tokens)來預測語義視覺嵌入,並將其作為擴散模型的條件訊號。此設計省去了深度融合的必要,無需重新訓練模型即可將 VLM 的知識轉移至視覺生成流程。
Results
實驗結果顯示,MMCORE 在文字生成影像以及單/多影像編輯的各項基準測試中,表現一致優於現有的尖端(SOTA)模型。此外,該框架在涉及空間推理與視覺定位的複雜多模態任務中,展現出極強的理解力與合成保真度。
Significance
此研究成功證明了在不增加運算負荷的前提下,能有效串聯 VLM 與擴散模型,為開發具備高層次推理能力的多模態生成工具提供了具效率且強大的新路徑,對未來智慧影像編輯與生成技術極具參考價值。