Problem

深度研究代理人(DRAs)在處理具備長時程、跨文件與多模態需求的複雜任務時,常受限於動態網頁環境的不確定性與任務定義模糊,導致現有的評測方法難以達成具備真實性且可重現的效能衡量。

Method

本研究提出 DR³-Eval 評測基準,其核心包含由真實素材建構的靜態研究沙盒,模擬網路環境的複雜度(含干擾項與雜訊)以確保測試可驗證性。同時引入五大維度評估框架:資訊召回、事實準確度、引用覆蓋率、指令遵循及深度品質,並結合人類判斷進行效度驗證。

Results

透過多個先進大語言模型驅動的代理人系統實驗發現,DR³-Eval 展現極高挑戰性。測試結果精準識別出當前模型在檢索穩健性與幻覺控制方面的重大失效點,證實即便在頂尖模型下,處理大量雜訊資訊仍有顯著進步空間。

Significance

此研究為自動化研究代理人建立了具備公信力的標準化測試場域,填補了多模態長篇報告生成評測的空白。這不僅有助於學界精確衡量 AI 的研究能力,更為未來開發更穩健、具備實務價值的 AI 協作工具指引方向。