突破兩階段訓練限制：UNITE 統一量化與潛在去噪的端到端生成架構

本研究提出 UNITE 架構，將影像量化與潛在擴散整合至單一生成編碼器中。透過共享參數的單階段訓練，模型能同時優化特徵提取與生成任務，在無需預訓練模型下於影像與分子生成達到頂尖性能。

Problem

傳統的潛在擴散模型（LDMs）需要複雜的兩階段訓練流程：必須先訓練好影像量化器（Tokenizer）並凍結其權重後，才能開始訓練擴散模型。這種分離的架構限制了潛在空間的優化效率，且通常需要依賴對抗損失函數或預訓練的編碼器（如 DINO）才能達到高品質的生成結果。

Method

研究團隊開發了名為 UNITE 的單階段訓練架構，核心在於「生成編碼器」（Generative Encoder）。該架構將量化（從影像推論潛在變數）與生成（從雜訊結合條件推論潛在變數）視為對稱的推論問題。透過權重共享，模型在單次訓練流程中進行兩次前向傳遞，使梯度能共同塑造「統一的潛在語言」，讓量化與生成任務在同一個潛在空間中協同優化。

Results

在 ImageNet 256x256 基準測試中，UNITE 的 Base 與 Large 模型分別取得了 FID 2.12 與 1.73 的優異成績。實驗結果顯示，即便在不使用對抗損失或任何預訓練編碼器的情況下，UNITE 在影像與分子模態中皆能達到接近現有頂尖技術的性能，並在表徵對齊與資料壓縮方面展現出極強的能力。

Significance

此研究成功證明了從零開始對量化與生成任務進行單階段聯合訓練是可行的。這不僅大幅簡化了生成模型的開發難度與訓練複雜度，更打破了 LDM 必須依賴凍結潛在空間的限制，為未來跨模態生成式人工智慧提供了一個更簡潔、高效且具通用性的架構參考。