Problem
傳統的潛在擴散模型(LDMs)需要複雜的兩階段訓練流程:必須先訓練好影像量化器(Tokenizer)並凍結其權重後,才能開始訓練擴散模型。這種分離的架構限制了潛在空間的優化效率,且通常需要依賴對抗損失函數或預訓練的編碼器(如 DINO)才能達到高品質的生成結果。
Method
研究團隊開發了名為 UNITE 的單階段訓練架構,核心在於「生成編碼器」(Generative Encoder)。該架構將量化(從影像推論潛在變數)與生成(從雜訊結合條件推論潛在變數)視為對稱的推論問題。透過權重共享,模型在單次訓練流程中進行兩次前向傳遞,使梯度能共同塑造「統一的潛在語言」,讓量化與生成任務在同一個潛在空間中協同優化。
Results
在 ImageNet 256x256 基準測試中,UNITE 的 Base 與 Large 模型分別取得了 FID 2.12 與 1.73 的優異成績。實驗結果顯示,即便在不使用對抗損失或任何預訓練編碼器的情況下,UNITE 在影像與分子模態中皆能達到接近現有頂尖技術的性能,並在表徵對齊與資料壓縮方面展現出極強的能力。
Significance
此研究成功證明了從零開始對量化與生成任務進行單階段聯合訓練是可行的。這不僅大幅簡化了生成模型的開發難度與訓練複雜度,更打破了 LDM 必須依賴凍結潛在空間的限制,為未來跨模態生成式人工智慧提供了一個更簡潔、高效且具通用性的架構參考。