Problem

頂尖語言模型的強化學習(RL)後訓練正面臨自回歸展開(Rollout)生成的嚴重瓶頸。雖然現有許多優化方法,但多數透過改變優化機制或採用低精度生成,這可能導致模型輸出分佈偏離目標,難以維持高品質的無損生成。

Method

本研究將推測解碼(Speculative Decoding)作為一種無損加速原語整合至 RL 流程中。在 NeMo-RL 框架內結合 vLLM 後端,支援同步與非同步管線,使 RL 訓練能相容預訓練 MTP 頭、小型外部草稿模型或 Eagle3 等先進技術,實現訓練內部的推測生成。

Results

在 8B 參數規模的同步強化學習推理工作負載中,推測解碼將展開吞吐量提升了 1.8 倍。根據高效能模擬器預測,在 235B 參數規模的非同步強化學習場景下,結合此技術可實現高達 2.5 倍的端到端全流程訓練加速。

Significance

此研究為推測解碼在 RL 訓練中的部署開闢了新路徑。它成功在維持模型精確度的同時,大幅縮短了最耗時的生成環節,為超大規模語言模型的高效後訓練提供關鍵的系統級技術支撐。