Problem
標準同策略蒸餾(OPD)在訓練過程中需要維護即時的教師模型推理伺服器,導致龐大的運算開銷與硬體基礎設施成本。然而,傳統的離線蒸餾變體往往無法達到與線上蒸餾相當的效能。研究發現,這種效能落差源於「教師一致性」的缺失,導致梯度偏差無法消除,使模型收斂至次優解。
Method
研究團隊開發了 Lightning OPD 框架,核心在於強制執行「教師一致性」。該方法在監督式微調(SFT)階段預先計算教師模型的對數機率(log-probabilities)並於訓練中重複使用,徹底排除對即時教師伺服器的需求。理論證明,在一致性前提下,離線與線上 OPD 共享相同的最優解,且具備隱性正規化效果以防止策略漂移。
Results
實驗結果顯示,Lightning OPD 在數學推理與程式碼生成任務中表現優異。以 Qwen3-8B-Base 為起點,僅需 30 個 GPU 小時即可在 AIME 2024 基準測試達到 69.9% 的準確率。相較於標準 OPD,該方法實現了 4.0 倍的加速,並在極短時間內達到當前最頂尖的推理水準。
Significance
這項研究證明了離線蒸餾在正確理論指導下能與線上方法並駕齊驅。Lightning OPD 不僅大幅提升了訓練效率,更顯著降低了學術界進行大型語言模型(LLM)後訓練研究的算力門檻,為開發高效能推理模型提供了一條更具經濟效益的路徑。