ELT 彈性循環 Transformer：透過權重共享與自蒸餾技術，重塑高效能影像生成新標竿

本研究提出 ELT 架構，利用循環式權重共享大幅縮減參數。透過內循環自蒸餾技術，單一模型即可實現動態推理，在維持優異生成品質的同時，顯著提升運算效率與靈活性。

Problem

傳統的視覺生成模型通常依賴深層且由大量獨立 Transformer 層堆疊而成的架構，這導致參數規模龐大，不僅消耗過多記憶體，也讓模型在部署與動態調整運算成本時缺乏靈活性。

Method

提出「彈性循環 Transformer」（ELT），採用循環式（Recurrent）架構與權重共享機制進行迭代運算。此外，開發了「內循環自蒸餾」（ILSD）技術，在訓練過程中將最大循環數作為教師端，引導中間循環數的學生端，確保模型在不同深度下皆能保持一致性，並具備「隨時推理」（Any-Time inference）的特性。

Results

實驗結果顯示，在維持相同推理運算量的前提下，ELT 的參數數量縮減了 4 倍。其在 ImageNet 256x256 的類別條件生成中達到 2.0 的 FID 分數，並在 UCF-101 影片生成測試中取得 72.8 的 FVD，展現出極具競爭力的合成品質。

Significance

此研究顯著推動了視覺生成技術的效率邊界。透過權重共享與彈性架構，ELT 證明了開發者能以極低參數成本達成高品質影像與影片合成，並根據硬體資源即時權衡品質與速度，為資源受限環境下的 AI 部署提供新路徑。