A^2TGPO：透過自適應回合剪裁優化代理人 LLM 強化學習，精準分配多回合互動的信用評價

針對代理人大型語言模型在多回合任務中獎勵稀疏的問題，本文提出 A^2TGPO 架構。透過資訊增益作為內在訊號，並導入回合群組正規化與自適應剪裁，有效解決信用分配不均與訓練不穩定的挑戰。

Problem

代理人大型語言模型（Agentic LLMs）在強化學習時，通常僅依賴最終結果的稀疏獎勵，難以精確評估多回合互動中個別工具呼叫（Tool-calls）的具體貢獻。現有解決方案若非依賴外部評價模型增加運算負擔，就是因忽略不同回合間的上下文異質性，導致信用分配失真與訓練優勢值不穩定。

提出 A^2TGPO 框架，在不依賴外部模型的前提下，利用「資訊增益」（IG）作為內在程序訊號，並引入三大核心機制：(1) 回合群組正規化，依據互動深度進行同儕比較；(2) 變異數縮放折扣累積，防止優勢值隨路徑深度漂移；(3) 自適應回合級剪裁，根據 IG 強度動態調整策略更新範圍。

該方法成功克服了 IG 訊號在強化學習迴圈中的系統性缺陷。透過精準的正規化與變異數控制，模型能更有效地辨識具備高資訊價值的關鍵回合；自適應剪裁機制則擴大了關鍵資訊回合的更新區間，同時限制了無效資訊的干擾，顯著提升了訓練的收斂穩定性與模型決策品質。

此研究為代理人 LLM 的訓練提供了一套高效且強健的程序信用分配機制。它不僅降低了對外部評估資源的依賴，更透過細粒度的自適應優化技術，解決了長序列決策任務中的獎勵訊號稀疏問題，對於開發更具自主性與準確性的 AI 代理人具有重要參考價值。