Problem

目前的 AI 代理人記憶基準多偏重於用戶歷史或短期軌跡,難以評估代理人是否能像經驗豐富的同事般,精確掌握特定網路環境中的介面特性、動態狀態變化、作業流程及常見錯誤模式。

Method

研究團隊推出 LongMemEval-V2 (LME-V2) 基準測試,包含 451 個手動標註問題,涉及靜態狀態召回與動態追蹤等五大核心能力。此外提出兩種記憶機制:AgentRunbook-R(基於 RAG 的檢索)與 AgentRunbook-C(利用編碼代理人在增強沙盒中分析軌跡檔案),處理高達 1.15 億個 Token 的歷史資料。

Results

實驗結果顯示,AgentRunbook-C 的平均準確率達到 72.5%,大幅超越最強的 RAG 基準(48.5%)及現成的編碼代理人方案(69.3%)。雖然 AgentRunbook-C 優化了準確度與延遲之間的權衡,但高延遲成本顯示未來仍有極大的改進空間。

Significance

此研究填補了長期記憶評估的空白,為開發具備「環境經驗」的專業級 AI 代理人提供了關鍵的測試框架。LME-V2 的建立將引導學界與業界開發出能更深層理解環境、具備更高自動化穩定性的智慧系統。