Lightning OPD：透過離線同策略蒸餾技術，實現高效且低成本的大型推理模型訓練

本研究提出 Lightning OPD 框架，藉由「教師一致性」理論解決離線蒸餾效能低落的問題。該方法無需即時教師伺服器，能以 4 倍速度達到 SOTA 推理能力，顯著降低模型後訓練的門檻。

Problem

標準同策略蒸餾（OPD）在訓練過程中需要維護即時的教師模型推理伺服器，導致龐大的運算開銷與硬體基礎設施成本。然而，傳統的離線蒸餾變體往往無法達到與線上蒸餾相當的效能。研究發現，這種效能落差源於「教師一致性」的缺失，導致梯度偏差無法消除，使模型收斂至次優解。

Method

研究團隊開發了 Lightning OPD 框架，核心在於強制執行「教師一致性」。該方法在監督式微調（SFT）階段預先計算教師模型的對數機率（log-probabilities）並於訓練中重複使用，徹底排除對即時教師伺服器的需求。理論證明，在一致性前提下，離線與線上 OPD 共享相同的最優解，且具備隱性正規化效果以防止策略漂移。

Results

實驗結果顯示，Lightning OPD 在數學推理與程式碼生成任務中表現優異。以 Qwen3-8B-Base 為起點，僅需 30 個 GPU 小時即可在 AIME 2024 基準測試達到 69.9% 的準確率。相較於標準 OPD，該方法實現了 4.0 倍的加速，並在極短時間內達到當前最頂尖的推理水準。

Significance

這項研究證明了離線蒸餾在正確理論指導下能與線上方法並駕齊驅。Lightning OPD 不僅大幅提升了訓練效率，更顯著降低了學術界進行大型語言模型（LLM）後訓練研究的算力門檻，為開發高效能推理模型提供了一條更具經濟效益的路徑。