Problem

傳統的過程獎勵模型(PRM)在處理動態資料分析任務時面臨兩大挑戰:第一,難以偵測「隱蔽錯誤」(即程式碼能運行但邏輯錯誤導致結果偏差);第二,模型容易誤將分析過程中必要的嘗試探索行為判定為失敗,無法有效區分「除錯中的嘗試」與「真正的錯誤」。

Method

研究團隊開發了環境感知生成式獎勵模型 DataPRM。該模型具備主動驗證功能,能與執行環境互動以探查中間狀態,藉此發現隱蔽錯誤。此外,模型採用「反思感知三元獎勵策略」,精確區別可修正的嘗試錯誤與不可挽回的嚴重失誤。研究同時建立了一套自動化管線,生成逾 8,000 筆高品質的步驟級標注資料進行訓練。

Results

實驗證明 DataPRM 在 Best-of-N 推論策略下,於 ScienceAgentBench 與 DABStep 評測中分別提升了 7.21% 與 11.28% 的效能。僅具備 4B 參數的 DataPRM 表現便優於許多強大的基準模型。將其整合至強化學習框架後,在 DABench 取得 78.73% 以及 TableBench 64.84% 的優異成績,遠超僅給予結果獎勵的基準方法。

Significance

此研究填補了動態環境下過程監督技術的空白,證明透過細粒度的環境回饋與合理的獎勵機制,中小型語言模型也能在複雜科學分析任務中展現強大的推理與自我修正能力,為開發更可靠的 AI 研究助理提供了關鍵的技術路徑。