Problem
當前大型語言模型在數學與物理等專業領域表現優異,但其「通用推理」能力——即在不依賴專業領域知識下,處理複雜約束、邏輯分支及語意干擾的能力——卻鮮少被深入探討,且現有評測難以區分模型是依靠專業知識儲備還是真正的邏輯思維來解決問題。
Method
團隊開發了 General365 基準測試,嚴格限制背景知識於 K-12 水平,藉此將推理能力與專業知識解耦合。該評測涵蓋 8 個類別,包含 365 個核心問題及 1,095 個變體題目,透過多樣化的情境設計確保了評測的高難度與嚴謹性。
Results
針對 26 款領先模型的評測顯示,即使是表現最強的模型在 General365 上的正確率也僅有 62.8%,與其在專業數理評測中接近滿分的表現形成鮮明對比。實驗數據指出,目前模型的推理能力高度依賴特定領域知識,在廣泛場景的泛化能力明顯不足。
Significance
General365 為學界提供了一個更具挑戰性的評核工具,有助於推動大型語言模型從「領域專家」演進為能在複雜現實環境中進行強健思考的通用型人工智慧,促進模型在非專科領域的邏輯應用。