頻譜匹配：提升潛在擴散模型可學習性的統一新視角

提出「頻譜匹配假說」，透過編碼與解碼的頻譜匹配技術，大幅提升潛在擴散模型的可學習性。此理論視角解釋了過往限制，更在多項資料集創下卓越生成表現。

Problem

潛在擴散模型中變分自編碼器（VAE）的可學習性缺乏系統性理解。儘管已知以均方誤差訓練的像素空間擴散易偏向學習中低頻率，但對於何種潛在特徵最有利於模型學習，以及如何避免潛在空間過度雜訊或平滑等問題，始終缺乏統一的解釋與指導原則。

Method

提出「頻譜匹配假說」（Spectrum Matching Hypothesis），包含兩大核心機制：一是「編碼頻譜匹配（ESM）」，讓潛在特徵的功率譜密度（PSD）對齊影像並呈現平緩的冪次法則分佈；二是「解碼頻譜匹配（DSM）」，透過共享頻譜遮罩與頻率對齊重建，維持解碼過程的頻率語意對應關係。此外，將此視角延伸至表示對齊（REPA），提出基於高斯差分（DoG）的技術來捕捉方向性頻譜能量。

Results

在 CelebA 與 ImageNet 影像資料集的實驗證明，結合頻譜匹配技術的模型在影像生成任務上表現卓越，顯著超越現有方法。同時，針對表示對齊所提出的 DoG 改良技術，也成功進一步提升了特徵對齊的效能。

Significance

提供了一個嶄新且統一的理論視角，不僅清楚解釋了過去潛在特徵過度雜訊或平滑的根本原因，還將近年多個主流方法（如 VA-VAE、EQ-VAE）納為此理論的特例。這為未來設計更易於學習、生成品質更高的擴散模型奠定了重要的理論基礎。