LongMemEval-V2：建立新一代基準測試，評估 AI 代理人於複雜網路環境中轉化長期經驗之能力

此研究推出 LongMemEval-V2 基準，針對網路代理人內化環境經驗的能力進行深度評估，並提出 AgentRunbook-C 技術，顯著提升了長文本軌跡中的資訊檢索與問題解決準確率。

Problem

目前的 AI 代理人記憶基準多偏重於用戶歷史或短期軌跡，難以評估代理人是否能像經驗豐富的同事般，精確掌握特定網路環境中的介面特性、動態狀態變化、作業流程及常見錯誤模式。

Method

研究團隊推出 LongMemEval-V2 (LME-V2) 基準測試，包含 451 個手動標註問題，涉及靜態狀態召回與動態追蹤等五大核心能力。此外提出兩種記憶機制：AgentRunbook-R（基於 RAG 的檢索）與 AgentRunbook-C（利用編碼代理人在增強沙盒中分析軌跡檔案），處理高達 1.15 億個 Token 的歷史資料。

Results

實驗結果顯示，AgentRunbook-C 的平均準確率達到 72.5%，大幅超越最強的 RAG 基準（48.5%）及現成的編碼代理人方案（69.3%）。雖然 AgentRunbook-C 優化了準確度與延遲之間的權衡，但高延遲成本顯示未來仍有極大的改進空間。

Significance

此研究填補了長期記憶評估的空白，為開發具備「環境經驗」的專業級 AI 代理人提供了關鍵的測試框架。LME-V2 的建立將引導學界與業界開發出能更深層理解環境、具備更高自動化穩定性的智慧系統。