MMCORE：結合視覺語言模型推理力，打造高效率多模態影像生成與精準編輯框架

MMCORE 透過預訓練視覺語言模型預測語義視覺嵌入，將強大推理能力導入擴散模型，不僅顯著降低運算成本，更在複雜場景的影像生成與多圖編輯中展現卓越性能。

Problem

現有的多模態影像生成系統通常需要對自動回歸模型與擴散模型進行複雜的深度融合，或是面臨從頭開始訓練的龐大計算壓力，這使得模型難以有效繼承預訓練視覺語言模型（VLM）所具備的深層語義理解與推理能力。

本研究提出 MMCORE 統一框架，利用預訓練 VLM 搭配「可學習查詢標記」（learnable query tokens）來預測語義視覺嵌入，並將其作為擴散模型的條件訊號。此設計省去了深度融合的必要，無需重新訓練模型即可將 VLM 的知識轉移至視覺生成流程。

實驗結果顯示，MMCORE 在文字生成影像以及單/多影像編輯的各項基準測試中，表現一致優於現有的尖端（SOTA）模型。此外，該框架在涉及空間推理與視覺定位的複雜多模態任務中，展現出極強的理解力與合成保真度。

此研究成功證明了在不增加運算負荷的前提下，能有效串聯 VLM 與擴散模型，為開發具備高層次推理能力的多模態生成工具提供了具效率且強大的新路徑，對未來智慧影像編輯與生成技術極具參考價值。