Problem
擴散模型雖然在視覺生成領域佔據主導地位,但其齊一化的計算方式導致處理不同複雜度圖像時效率低下;而傳統自回歸(AR)模型則長期受限於離散代幣化帶來的資訊損失,以及生成過程中的誤差累積問題。
Method
研究團隊提出生成式精煉網路(GRN),核心採用層次化二進位量化(HBQ)技術以實現近乎無損的特徵重建。在生成機制上,GRN 仿效人類藝術家繪畫過程,引入全局精煉機制逐步修正與完善作品,並配合熵導向採樣策略,根據圖像複雜度動態調整生成步數。
Results
在 ImageNet 基準測試中,GRN 於影像重建(0.56 rFID)與類別條件生成(1.81 gFID)皆刷新紀錄。此外,將模型規模擴展至文字生成圖像及影片任務時,GRN 在同等規模下展現出顯著優於現有模型的生成品質與效能。
Significance
此研究成功打破了自回歸模型與擴散模型之間的性能隔閡,為高效視覺合成提供了全新架構。其自適應步數的生成特性不僅提升了計算資源的使用效率,更為未來大規模多模態生成模型的優化開闢了新路徑。