Problem
目前大型語言模型在通用基準測試的表現趨於飽和,但在應對需要高度認知能力的複雜專業任務時,現有評估框架面臨領域涵蓋不足、過於依賴一般性任務,以及模型自我評價偏誤等問題,難以真實反映模型在專家領域的實力。
Method
研究團隊開發了 XpertBench 基準測試,包含金融、醫療、法律、研究等 80 個類別的 1,346 項任務,由各界資深專家親自編寫以確保生態效度。每項任務皆配備包含 15-40 個加權檢查點的精細準則,並引入 ShotJudge 評估範式,利用專家少樣本範例校準 LLM 評判者,降低自我獎勵偏誤。
Results
實驗結果顯示當前頂尖模型的表現仍有顯著天花板:最高成功率僅約 66%,平均分數僅 55%。模型在不同領域呈現能力分化,在定量推理與語言綜合能力上各有千秋,顯示目前的 AI 系統在專業嚴謹度上仍與人類專家有顯著差距。
Significance
本研究確立了 AI 與人類專家間的「專業鴻溝」,並提供了一套具備高可擴展性且與人類評價高度一致的評估工具。XpertBench 是推動 AI 從通用型助手轉向專業領域協作者的關鍵指標,為未來開發具備專業深度與嚴謹度的模型奠定基礎。