Problem
強化學習是提升多輪 LLM 代理長程規劃能力的關鍵,但生成大量沙盒軌跡(rollout trajectories)的過程常與訓練迴圈過度耦合,導致系統難以遷移、維護且缺乏擴展性。
Method
提出 ProRL Agent 框架,採用 Rollout-as-a-Service (RaaS) 理念,將代理軌跡生成的完整生命週期封裝為 API 服務。該系統提供標準化且可擴展的沙盒環境,並特別支援無 root 權限的高效能運算(HPC)設定。
Results
此框架已在軟體工程、數學、STEM 及程式開發等多元任務中通過強化學習訓練驗證。目前 ProRL Agent 已正式開源,並作為 NVIDIA NeMo Gym 的一部分進行整合。
Significance
透過解耦訓練與軌跡生成,顯著降低了開發複雜 AI 代理的門檻。此服務化架構為大規模 agentic 任務提供了高穩定性且易於維護的基礎設施,對自主 AI 系統的實作具有重要貢獻。