Problem
目前的語言模型雖能協助科學發現中的「嘗試與錯誤」循環,但仍缺乏一套具備原則性且有效的方法論,用以系統化地擴大評價驅動(evaluation-driven)發現流程的規模,導致難以全面突破複雜科學研究的邊界。
Method
研究團隊開發了 SimpleTES(Simple Test-time Evaluation-driven Scaling)通用框架。該框架策略性地結合了「並行探索」、「回饋驅動精煉」以及「局部選擇」三項核心機制,透過在正確的維度上縮放評價循環,極大化自動化發現的成效。
Results
在涵蓋 6 個領域的 21 個科學問題中,SimpleTES 成功發現多項世界領先(SOTA)的解決方案。具體成果包含將 LASSO 演算法提速超過 2 倍、減少量子電路路徑規劃 24.5% 的閘極開銷,並在 Erdős 最小重疊問題中發現了超越已知紀錄的新構造。
Significance
本研究確立了「評價驅動循環縮放」是提升語言模型科學發現能力的關鍵核心。透過成功軌跡進行後訓練,模型不僅能提高已知問題的處理效率,更能泛化至未見過的問題,解決基礎模型原本無法應對的科學挑戰。