Problem
代理人大型語言模型(Agentic LLMs)在強化學習時,通常僅依賴最終結果的稀疏獎勵,難以精確評估多回合互動中個別工具呼叫(Tool-calls)的具體貢獻。現有解決方案若非依賴外部評價模型增加運算負擔,就是因忽略不同回合間的上下文異質性,導致信用分配失真與訓練優勢值不穩定。
Method
提出 A^2TGPO 框架,在不依賴外部模型的前提下,利用「資訊增益」(IG)作為內在程序訊號,並引入三大核心機制:(1) 回合群組正規化,依據互動深度進行同儕比較;(2) 變異數縮放折扣累積,防止優勢值隨路徑深度漂移;(3) 自適應回合級剪裁,根據 IG 強度動態調整策略更新範圍。
Results
該方法成功克服了 IG 訊號在強化學習迴圈中的系統性缺陷。透過精準的正規化與變異數控制,模型能更有效地辨識具備高資訊價值的關鍵回合;自適應剪裁機制則擴大了關鍵資訊回合的更新區間,同時限制了無效資訊的干擾,顯著提升了訓練的收斂穩定性與模型決策品質。
Significance
此研究為代理人 LLM 的訓練提供了一套高效且強健的程序信用分配機制。它不僅降低了對外部評估資源的依賴,更透過細粒度的自適應優化技術,解決了長序列決策任務中的獎勵訊號稀疏問題,對於開發更具自主性與準確性的 AI 代理人具有重要參考價值。