Problem

現有的深度研究代理人(DRA)在利用歷史經驗時,常面臨記憶演化效率低下、儲存與檢索成本過高,以及難以從過往軌跡中有效提取推理資訊等瓶頸,導致系統難以在長期的開放環境中持續成長。

Method

提出 MIA 框架,採用「管理員-規劃者-執行者」架構。管理員負責儲存壓縮後的歷史軌跡;規劃者根據問題生成搜尋計畫;執行者則負責執行資訊分析。技術上結合了交替強化學習、測試時學習(test-time learning)以及參數與非參數記憶的雙向轉換迴圈,並加入反思與無監督判斷機制。

Results

在 11 項基準測試的廣泛實驗中,MIA 展現出優於現有模型的推論表現。結果證實該框架能在不中斷推理過程的情況下,於測試階段即時更新並演化記憶,大幅降低了檢索成本並提升了複雜問題的處理品質。

Significance

此研究為自主代理人提供了一套更具成本效益且能持續演化的記憶管理方案,成功打破了靜態記憶系統的限制。這對於推動具備自主學習能力的 AI 在複雜科學研究與動態資訊檢索領域的應用,具有高度的學術與實務價值。