透過系統整合推測解碼加速強化學習後訓練：實現高達 2.5 倍的訓練效能提升

研究提出將推測解碼整合至強化學習後訓練流程，有效解決自回歸生成的瓶頸。透過系統級整合，在不損害模型分布的前提下，顯著提升大規模模型的訓練吞吐量與速度。

Problem

頂尖語言模型的強化學習（RL）後訓練正面臨自回歸展開（Rollout）生成的嚴重瓶頸。雖然現有許多優化方法，但多數透過改變優化機制或採用低精度生成，這可能導致模型輸出分佈偏離目標，難以維持高品質的無損生成。

本研究將推測解碼（Speculative Decoding）作為一種無損加速原語整合至 RL 流程中。在 NeMo-RL 框架內結合 vLLM 後端，支援同步與非同步管線，使 RL 訓練能相容預訓練 MTP 頭、小型外部草稿模型或 Eagle3 等先進技術，實現訓練內部的推測生成。

在 8B 參數規模的同步強化學習推理工作負載中，推測解碼將展開吞吐量提升了 1.8 倍。根據高效能模擬器預測，在 235B 參數規模的非同步強化學習場景下，結合此技術可實現高達 2.5 倍的端到端全流程訓練加速。

此研究為推測解碼在 RL 訓練中的部署開闢了新路徑。它成功在維持模型精確度的同時，大幅縮短了最耗時的生成環節，為超大規模語言模型的高效後訓練提供關鍵的系統級技術支撐。