評價驅動縮放：SimpleTES 框架如何利用語言模型在量子運算與數學領域實現科學新發現

本研究提出 SimpleTES 框架，透過並行探索、回饋精煉與局部選擇的策略性結合，在多項科學領域中超越現有模型表現，顯著提升演算法效率並發現全新數學解。

Problem

目前的語言模型雖能協助科學發現中的「嘗試與錯誤」循環，但仍缺乏一套具備原則性且有效的方法論，用以系統化地擴大評價驅動（evaluation-driven）發現流程的規模，導致難以全面突破複雜科學研究的邊界。

研究團隊開發了 SimpleTES（Simple Test-time Evaluation-driven Scaling）通用框架。該框架策略性地結合了「並行探索」、「回饋驅動精煉」以及「局部選擇」三項核心機制，透過在正確的維度上縮放評價循環，極大化自動化發現的成效。

在涵蓋 6 個領域的 21 個科學問題中，SimpleTES 成功發現多項世界領先（SOTA）的解決方案。具體成果包含將 LASSO 演算法提速超過 2 倍、減少量子電路路徑規劃 24.5% 的閘極開銷，並在 Erdős 最小重疊問題中發現了超越已知紀錄的新構造。

本研究確立了「評價驅動循環縮放」是提升語言模型科學發現能力的關鍵核心。透過成功軌跡進行後訓練，模型不僅能提高已知問題的處理效率，更能泛化至未見過的問題，解決基礎模型原本無法應對的科學挑戰。