Problem
現有的動態專家混合(MoE)模型通常需從頭預訓練或進行特定任務微調,導致已訓練完成的靜態 MoE 模型在推理時無法根據 token 難度靈活調整專家數量。這使得簡單的 token 仍需通過冗餘的專家計算,造成不必要的推論資源浪費。
Method
提出名為 ZEDA(Zero-Expert Self-Distillation Adaptation)的低成本框架。該方法在各 MoE 層中注入不佔參數的「零輸出專家」,並將原模型作為凍結的教師模型,透過兩階段自我蒸餾與群組層級平衡損失(group-level balancing loss),訓練模型自動跳過非必要的專家計算。
Results
在 Qwen3-30B-A3B 與 GLM-4.7-Flash 模型的測試中,ZEDA 在數學、程式碼及指令遵循等 11 項基準測試上,成功消除超過 50% 的專家運算量(FLOPs),且精準度損失極小。其表現優於現有最強動態 MoE 基準達 4.0 至 6.1 分,並實現約 1.2 倍的端到端推理加速。
Significance
此研究提供了一種有效且低成本的方案,能將現成的預訓練 MoE 模型轉化為高效能的動態版本。這不僅顯著降低了大語言模型在實際部署時的運算開銷,也為未來模型架構的靈活性與推理效率優化開拓了新路徑。