Problem
現有的同策略自我蒸餾(OPSD)機制過度依賴包含參考答案的特權資訊作為指導,導致嚴重的資訊洩漏問題。這種僅依賴特權教師的學習訊號,會造成模型在長期訓練過程中表現不穩定,難以達成真正的自我演化。
Method
研究團隊開發了 RLSD(具自我蒸餾的可驗證獎勵強化學習)框架。該方法利用自我蒸餾產生的詞元級(token-level)策略差異來精確決定更新幅度,並同步結合 RLVR 透過環境反饋(如答案正確性)所提供的可靠更新方向。
Results
實驗結果顯示,RLSD 成功融合了 RLVR 與 OPSD 的優點。相較於傳統方法,RLSD 不僅克服了資訊洩漏導致的訓練波動,更在模型收斂上限與長期訓練穩定性上表現優異,達成更高的基準測試得分。
Significance
此項研究為大型語言模型的自我演進路徑提供了關鍵見解。它證明了在缺乏外部強大教師時,結合細粒度的內部訊號與客觀的外部驗證機制,是建構更穩定、更強大自監督學習模型的必要條件。