T^2PO：運用不確定性引導探索控制，突破多輪代理人強化學習的訓練不穩定困境

針對多輪強化學習中的訓練崩潰，提出 T^2PO 框架，透過在 Token 與回合層級監測不確定性動態，精準控制探索效率，顯著提升推理模型在複雜任務中的穩定性與效能。

Problem

多輪強化學習（RL）在處理複雜互動任務時，經常面臨訓練不穩定甚至崩潰的挑戰。儘管現有技術嘗試優化獎勵分配，但策略仍容易產生低資訊量的動作，導致探索效率低落，既無法有效降低不確定性，也難以推進任務實質進度。

開發 T^2PO 框架，透過「不確定性感知」機制進行細粒度的探索控制。在 Token 層級，系統監測不確定性的邊際變化，一旦效益低於門檻即自動觸發思考干預；在回合（Turn）層級，則辨識探索進度停滯的交互過程並動態重採樣，以避免無效的 Rollout 浪費計算資源。

在 WebShop、ALFWorld 與 Search QA 等多樣化環境的實驗證明，T^2PO 在訓練穩定性與最終效能上均有顯著進步。該方法成功提升了探索效率，使推理模型在複雜的任務場景中表現更為強健，並已開源相關程式碼。

此研究為解決大型語言模型在代理人場景中的訓練不穩定問題提供了創新的解決方案。藉由量化探索的資訊價值並實施雙層級控制，T^2PO 為開發更高效、更穩定的自主推理 AI 代理人開闢了新的技術路徑。