讓模型自建修煉場：EvoEnv 透過可驗證環境合成實現強化學習的自我演化

本研究提出 EvoEnv 框架，讓語言模型自主構建具備「解題與驗證不對稱性」的訓練環境。透過動態調整環境難度，使模型在無資料標註下，實現穩定且持續的推理能力提升。

Problem

傳統自我改進模型常受限於單純的資料生成迴圈，且容易因缺乏有效驗證機制或模型投機行為（gaming the verifier）而導致效能瓶頸。如何在沒有大量外部高品質標註資料的情況下，讓推理模型實現穩定且持續的自我突破，是當前強化學習面臨的核心挑戰。

提出 EvoEnv 方法，將自我改進從「資料生成」轉向「環境構建」。模型從少數種子出發，自主合成包含 Python 程式碼的訓練環境。這些環境利用「解題困難但驗證簡單」的不對稱性，確保評分準確。系統透過階段式驗證、語義自評、難度校準及創新性檢查，動態篩選出高品質的訓練任務。

實驗證明，在強大的 Qwen3-4B-Thinking 模型上，使用固定公開資料或手寫環境進行強化學習（RLVR）的效果有限，而 EvoEnv 成功將平均分數從 72.4 提升至 74.8，達成 3.3% 的相對增長，展現了在極高基準點上持續進步的能力。

這項研究揭示了模型穩定演化的關鍵：並非生成更多合成資料，而是學習構建出在結構難度上超越自身當前極限的「世界」。這為邁向通用人工智慧（AGI）提供了一條可擴展的自我改進路徑，使模型能透過自主創造具備挑戰性的環境來不斷進化。