Problem

目前的數學基準測試在規模、語言覆蓋率及任務多樣性上仍有不足。儘管大型語言與多模態模型在一般任務表現優異,但在處理複雜的奧數級推理與精確的數學結構檢索時,仍面臨巨大的挑戰。

Method

研究團隊推出 MathNet,這是一個高品質、大規模的多模態且多語系資料集,收錄了過去 20 年間來自 47 個國家的 30,676 個奧數題目及其詳解。該研究設計了三項任務:問題解決、數學感知檢索,以及檢索增強解題,並由專家標註具數學等價性或結構相似性的題目對。

Results

實驗顯示,即使是頂尖模型如 Gemini 與 GPT-5,在 MathNet 的解題正確率仍有提升空間(分別為 78.4% 與 69.3%),而嵌入模型在檢索等價題目時表現欠佳。此外,研究發現檢索品質極大影響 RAG 效能,DeepSeek-V3.2-Speciale 透過高品質檢索可獲得高達 12% 的增長並取得最高分。

Significance

MathNet 為學界提供目前規模最大的高品質奧數資料集,並首創數學檢索評測基準。這不僅有助於評估模型的推理深度,更為開發基於檢索增強的數學 AI 系統提供了關鍵的測試環境與開源資源。