跨越通用 AI 鴻溝：XpertBench 專業基準測試，以專家級評量準則挑戰大型語言模型的認知極限

XpertBench 涵蓋 80 個領域的 1,346 項任務，透過專家級評量準則與 ShotJudge 評估機制，揭示 LLM 在複雜專業任務中的表現瓶頸。

Problem

目前大型語言模型在通用基準測試的表現趨於飽和，但在應對需要高度認知能力的複雜專業任務時，現有評估框架面臨領域涵蓋不足、過於依賴一般性任務，以及模型自我評價偏誤等問題，難以真實反映模型在專家領域的實力。

Method

研究團隊開發了 XpertBench 基準測試，包含金融、醫療、法律、研究等 80 個類別的 1,346 項任務，由各界資深專家親自編寫以確保生態效度。每項任務皆配備包含 15-40 個加權檢查點的精細準則，並引入 ShotJudge 評估範式，利用專家少樣本範例校準 LLM 評判者，降低自我獎勵偏誤。

Results

實驗結果顯示當前頂尖模型的表現仍有顯著天花板：最高成功率僅約 66%，平均分數僅 55%。模型在不同領域呈現能力分化，在定量推理與語言綜合能力上各有千秋，顯示目前的 AI 系統在專業嚴謹度上仍與人類專家有顯著差距。

Significance

本研究確立了 AI 與人類專家間的「專業鴻溝」，並提供了一套具備高可擴展性且與人類評價高度一致的評估工具。XpertBench 是推動 AI 從通用型助手轉向專業領域協作者的關鍵指標，為未來開發具備專業深度與嚴謹度的模型奠定基礎。