全球數學推理新指標：MathNet 奧數級多模態資料集與檢索評測基準

MathNet 是橫跨 47 國、17 種語言的大規模奧數級資料集，包含逾三萬個專家編寫題目。它首度結合解題與檢索任務，能有效評估並提升模型的高階推理與檢索增強生成表現。

Problem

目前的數學基準測試在規模、語言覆蓋率及任務多樣性上仍有不足。儘管大型語言與多模態模型在一般任務表現優異，但在處理複雜的奧數級推理與精確的數學結構檢索時，仍面臨巨大的挑戰。

Method

研究團隊推出 MathNet，這是一個高品質、大規模的多模態且多語系資料集，收錄了過去 20 年間來自 47 個國家的 30,676 個奧數題目及其詳解。該研究設計了三項任務：問題解決、數學感知檢索，以及檢索增強解題，並由專家標註具數學等價性或結構相似性的題目對。

Results

實驗顯示，即使是頂尖模型如 Gemini 與 GPT-5，在 MathNet 的解題正確率仍有提升空間（分別為 78.4% 與 69.3%），而嵌入模型在檢索等價題目時表現欠佳。此外，研究發現檢索品質極大影響 RAG 效能，DeepSeek-V3.2-Speciale 透過高品質檢索可獲得高達 12% 的增長並取得最高分。

Significance

MathNet 為學界提供目前規模最大的高品質奧數資料集，並首創數學檢索評測基準。這不僅有助於評估模型的推理深度，更為開發基於檢索增強的數學 AI 系統提供了關鍵的測試環境與開源資源。