Problem
目前的程式碼獎勵模型(Reward Models)大多過度依賴「執行結果」作為回饋,導致模型僅能評估程式碼是否可執行且功能正確。然而,現有技術缺乏對程式碼風格、安全性及效率等多樣化準則的評估能力,且在多語言環境下的評核表現仍顯不足。
Method
團隊首先建立 Themis-CodeRewardBench 基準測試,涵蓋 5 種偏好維度與 8 種程式語言。接著,彙整出包含超過 35 萬對偏好資料的 Themis-CodePreference 資料集,並據此訓練出參數規模從 600M 到 32B 的一系列 Themis-RM 模型,支援靈活的多準則評分。
Results
實驗結果顯示 Themis-RM 在跨語言遷移上具備強大潛力,且模型表現隨著規模擴展呈現明顯的正向趨勢。與現有 50 多種模型相比,該系列模型在多維度評分與複雜偏好排序任務中展現出更高的準確性與可靠性。
Significance
此研究解決了程式碼生成中長期存在評估標準單一的問題,並釋出了目前最大規模的開源程式碼偏好資料集。這不僅為模型後對齊提供了更全面的架構,也為開發具備高品質、多語言能力的程式碼輔助工具奠定基礎。