訓練後 MoE 模型也能省一半算力？ZEDA 透過自我蒸餾實現高效能動態專家跳轉技術

本研究提出 ZEDA 框架，透過注入零輸出專家與兩階段自我蒸餾，將預訓練後的 MoE 模型轉化為動態架構，在維持精準度的同時，成功節省超過 50% 的計算量並提升推理速度。

Problem

現有的動態專家混合（MoE）模型通常需從頭預訓練或進行特定任務微調，導致已訓練完成的靜態 MoE 模型在推理時無法根據 token 難度靈活調整專家數量。這使得簡單的 token 仍需通過冗餘的專家計算，造成不必要的推論資源浪費。

Method

提出名為 ZEDA（Zero-Expert Self-Distillation Adaptation）的低成本框架。該方法在各 MoE 層中注入不佔參數的「零輸出專家」，並將原模型作為凍結的教師模型，透過兩階段自我蒸餾與群組層級平衡損失（group-level balancing loss），訓練模型自動跳過非必要的專家計算。

Results

在 Qwen3-30B-A3B 與 GLM-4.7-Flash 模型的測試中，ZEDA 在數學、程式碼及指令遵循等 11 項基準測試上，成功消除超過 50% 的專家運算量（FLOPs），且精準度損失極小。其表現優於現有最強動態 MoE 基準達 4.0 至 6.1 分，並實現約 1.2 倍的端到端推理加速。

Significance

此研究提供了一種有效且低成本的方案，能將現成的預訓練 MoE 模型轉化為高效能的動態版本。這不僅顯著降低了大語言模型在實際部署時的運算開銷，也為未來模型架構的靈活性與推理效率優化開拓了新路徑。