Problem

傳統自我改進模型常受限於單純的資料生成迴圈,且容易因缺乏有效驗證機制或模型投機行為(gaming the verifier)而導致效能瓶頸。如何在沒有大量外部高品質標註資料的情況下,讓推理模型實現穩定且持續的自我突破,是當前強化學習面臨的核心挑戰。

Method

提出 EvoEnv 方法,將自我改進從「資料生成」轉向「環境構建」。模型從少數種子出發,自主合成包含 Python 程式碼的訓練環境。這些環境利用「解題困難但驗證簡單」的不對稱性,確保評分準確。系統透過階段式驗證、語義自評、難度校準及創新性檢查,動態篩選出高品質的訓練任務。

Results

實驗證明,在強大的 Qwen3-4B-Thinking 模型上,使用固定公開資料或手寫環境進行強化學習(RLVR)的效果有限,而 EvoEnv 成功將平均分數從 72.4 提升至 74.8,達成 3.3% 的相對增長,展現了在極高基準點上持續進步的能力。

Significance

這項研究揭示了模型穩定演化的關鍵:並非生成更多合成資料,而是學習構建出在結構難度上超越自身當前極限的「世界」。這為邁向通用人工智慧(AGI)提供了一條可擴展的自我改進路徑,使模型能透過自主創造具備挑戰性的環境來不斷進化。