Problem
傳統的視覺生成模型通常依賴深層且由大量獨立 Transformer 層堆疊而成的架構,這導致參數規模龐大,不僅消耗過多記憶體,也讓模型在部署與動態調整運算成本時缺乏靈活性。
Method
提出「彈性循環 Transformer」(ELT),採用循環式(Recurrent)架構與權重共享機制進行迭代運算。此外,開發了「內循環自蒸餾」(ILSD)技術,在訓練過程中將最大循環數作為教師端,引導中間循環數的學生端,確保模型在不同深度下皆能保持一致性,並具備「隨時推理」(Any-Time inference)的特性。
Results
實驗結果顯示,在維持相同推理運算量的前提下,ELT 的參數數量縮減了 4 倍。其在 ImageNet 256x256 的類別條件生成中達到 2.0 的 FID 分數,並在 UCF-101 影片生成測試中取得 72.8 的 FVD,展現出極具競爭力的合成品質。
Significance
此研究顯著推動了視覺生成技術的效率邊界。透過權重共享與彈性架構,ELT 證明了開發者能以極低參數成本達成高品質影像與影片合成,並根據硬體資源即時權衡品質與速度,為資源受限環境下的 AI 部署提供新路徑。