MERRIN：針對雜訊網頁環境的多模態檢索與推理基準測試，挑戰 AI 搜尋代理人極限

本研究提出 MERRIN 基準測試，評估 AI 代理人在真實網頁中處理多模態證據、進行多步推理並過濾衝突資訊的能力，揭示現有模型在複雜搜尋任務中的侷限性。

Problem

現有的 AI 搜尋代理人在處理真實網頁資訊時，常面臨查詢意圖不明確、資訊跨模態且異質，以及來源內容相互衝突等挑戰。這使得模型難以在缺乏明確指示的情況下，從吵雜的網路環境中進行精準的多步推理與證據檢索。

Method

研究團隊開發了人工標註的 MERRIN 基準測試。該測試具備三大特色：採用無明確模態提示的自然語言查詢、納入影片與音訊等低度開發的模態，並要求模型在衝突且具雜訊的資訊中檢索證據。實驗評估了包含 GPT-5.4-mini、Gemini 3/3.1 與 Qwen3 系列在內的十種模型，並比較其在無搜尋、原生搜尋與代理搜尋等設定下的表現。

Results

測試結果顯示 MERRIN 具有極高難度，所有代理人的平均準確率僅為 22.3%，即便是表現最佳者也僅達到 40.1%。研究發現，強大的代理人（如 Gemini Deep Research）常因「過度探索」而被不相關或衝突的資訊干擾，導致其資源消耗高於人類，但準確度卻遠低於人類。

Significance

MERRIN 填補了多模態網路檢索評估的空白，其發現指出目前的 AI 代理人過度依賴文字模態且資訊篩選效率不彰。這項研究為開發能在現實複雜環境中，具備強健推理與高效來源選擇能力的次世代搜尋代理人提供了重要的測試基準。