提升 LLM 訓練效能的新解方：RLSD 結合自我蒸餾與驗證獎勵，破解資訊洩漏與訓練不穩難題

本研究提出 RLSD 框架，結合自我蒸餾的細粒度訊號與可驗證獎勵的可靠方向，有效解決傳統自我蒸餾造成的資訊洩漏與訓練不穩定，顯著提升模型收斂上限與穩定性。

Problem

現有的同策略自我蒸餾（OPSD）機制過度依賴包含參考答案的特權資訊作為指導，導致嚴重的資訊洩漏問題。這種僅依賴特權教師的學習訊號，會造成模型在長期訓練過程中表現不穩定，難以達成真正的自我演化。

研究團隊開發了 RLSD（具自我蒸餾的可驗證獎勵強化學習）框架。該方法利用自我蒸餾產生的詞元級（token-level）策略差異來精確決定更新幅度，並同步結合 RLVR 透過環境反饋（如答案正確性）所提供的可靠更新方向。

實驗結果顯示，RLSD 成功融合了 RLVR 與 OPSD 的優點。相較於傳統方法，RLSD 不僅克服了資訊洩漏導致的訓練波動，更在模型收斂上限與長期訓練穩定性上表現優異，達成更高的基準測試得分。

此項研究為大型語言模型的自我演進路徑提供了關鍵見解。它證明了在缺乏外部強大教師時，結合細粒度的內部訊號與客觀的外部驗證機制，是建構更穩定、更強大自監督學習模型的必要條件。