革新視覺生成模型訓練：Fréchet Loss 突破侷限，實現超高性能單步影像生成器

本研究證明 Fréchet 距離可直接用於模型訓練。透過解耦樣本量與批次大小，FD-loss 顯著提升了影像品質，並讓多步生成器在無需蒸餾的情況下轉型為強大的單步生成器。

Problem

長期以來，Fréchet 距離（FD）僅被視為評估生成影像品質的指標，而非有效的訓練目標。主因在於 FD 對樣本量的需求極大，在標準的隨機梯度下降小批次訓練中，難以計算出穩定且精確的梯度。

Method

研究團隊提出了「FD-loss」，核心策略是將用於估算 FD 的群體樣本數（如 50,000 個）與用於計算梯度的批次大小（如 1,024 個）進行解耦。這使得模型能夠在各種表徵空間中直接優化分佈距離，而不再受限於計算資源與樣本量的矛盾。

Results

實驗證明，使用 FD-loss 對基礎生成器進行後訓練，能穩定提升影像品質；在 ImageNet 256x256 任務中，單步生成器達到了 0.72 FID 的優異表現。此外，該方法能在無需教師模型蒸餾、對抗訓練或逐樣本目標的情況下，直接將多步生成器轉化為強大的單步生成器。研究亦發現傳統 Inception FID 可能誤判視覺品質，進而提出多重表徵指標 FDr^k。

Significance

這項研究打破了 FD 難以作為損失函數的傳統認知，為生成模型提供了一種全新的訓練範式。它不僅簡化了高效能單步生成器的開發流程，也啟發了學界重新思考如何結合多樣化的表徵空間來優化並評估生成模型的性能。