Problem

潛在擴散模型中變分自編碼器(VAE)的可學習性缺乏系統性理解。儘管已知以均方誤差訓練的像素空間擴散易偏向學習中低頻率,但對於何種潛在特徵最有利於模型學習,以及如何避免潛在空間過度雜訊或平滑等問題,始終缺乏統一的解釋與指導原則。

Method

提出「頻譜匹配假說」(Spectrum Matching Hypothesis),包含兩大核心機制:一是「編碼頻譜匹配(ESM)」,讓潛在特徵的功率譜密度(PSD)對齊影像並呈現平緩的冪次法則分佈;二是「解碼頻譜匹配(DSM)」,透過共享頻譜遮罩與頻率對齊重建,維持解碼過程的頻率語意對應關係。此外,將此視角延伸至表示對齊(REPA),提出基於高斯差分(DoG)的技術來捕捉方向性頻譜能量。

Results

在 CelebA 與 ImageNet 影像資料集的實驗證明,結合頻譜匹配技術的模型在影像生成任務上表現卓越,顯著超越現有方法。同時,針對表示對齊所提出的 DoG 改良技術,也成功進一步提升了特徵對齊的效能。

Significance

提供了一個嶄新且統一的理論視角,不僅清楚解釋了過去潛在特徵過度雜訊或平滑的根本原因,還將近年多個主流方法(如 VA-VAE、EQ-VAE)納為此理論的特例。這為未來設計更易於學習、生成品質更高的擴散模型奠定了重要的理論基礎。