Problem
現有的科學基準測試多來自已發表的研究,容易受限於出版偏誤、既有知識偏誤與標籤雜訊,且龐大的靜態資料量也帶來儲存挑戰,難以在受控環境下精確評估大型語言模型從經驗資料中推理的能力。
Method
研發 InfiniteScienceGym 框架,利用隨機種子決定性地產出包含真實目錄結構與表格資料的自給式科學儲存庫。該系統結合特權問答生成器,能自動產出具備確切標準答案的任務,包含可回答與不可回答的問題,用以測試模型的證據導向推理、拒絕回答能力及工具輔助分析。
Results
評估顯示目前無論是閉源或開源模型,總體準確度均未超過 45%,其中辨識「無法回答的問題」仍是主要的技術弱點。研究也發現,性能較強的模型通常能更有效地運用分析工具,而非僅僅依賴於處理更多的標記(Tokens)。
Significance
此研究補足了真實科學數據集的評估盲點,提供一個受控且可無限擴展的環境。它不僅降低了分發大型語料庫的成本,更能針對模型在科學分析中的決策模式進行深度壓力測試,是推動人工智慧成為科學助手的重要基礎設施。