ProRL Agent：以服務化架構加速多輪對話 LLM 代理的強化學習訓練

ProRL Agent 提出「軌跡生成即服務」理念，將多輪 LLM 代理的訓練與環境模擬解耦。透過 API 提供可擴展的沙盒環境，支持多種任務並已整合至 NVIDIA NeMo Gym。

Problem

強化學習是提升多輪 LLM 代理長程規劃能力的關鍵，但生成大量沙盒軌跡（rollout trajectories）的過程常與訓練迴圈過度耦合，導致系統難以遷移、維護且缺乏擴展性。

提出 ProRL Agent 框架，採用 Rollout-as-a-Service (RaaS) 理念，將代理軌跡生成的完整生命週期封裝為 API 服務。該系統提供標準化且可擴展的沙盒環境，並特別支援無 root 權限的高效能運算（HPC）設定。

此框架已在軟體工程、數學、STEM 及程式開發等多元任務中通過強化學習訓練驗證。目前 ProRL Agent 已正式開源，並作為 NVIDIA NeMo Gym 的一部分進行整合。

透過解耦訓練與軌跡生成，顯著降低了開發複雜 AI 代理的門檻。此服務化架構為大規模 agentic 任務提供了高穩定性且易於維護的基礎設施，對自主 AI 系統的實作具有重要貢獻。