跨越執行限制：Themis 打造具備多重評估準則的強健多語言程式碼獎勵模型

本研究開發 Themis-RM 框架，透過大規模多準則偏好資料集，突破過去僅依賴執行正確性評分的限制，顯著提升多語言程式碼生成的對齊效果與多元維度的品質評估。

Problem

目前的程式碼獎勵模型（Reward Models）大多過度依賴「執行結果」作為回饋，導致模型僅能評估程式碼是否可執行且功能正確。然而，現有技術缺乏對程式碼風格、安全性及效率等多樣化準則的評估能力，且在多語言環境下的評核表現仍顯不足。

Method

團隊首先建立 Themis-CodeRewardBench 基準測試，涵蓋 5 種偏好維度與 8 種程式語言。接著，彙整出包含超過 35 萬對偏好資料的 Themis-CodePreference 資料集，並據此訓練出參數規模從 600M 到 32B 的一系列 Themis-RM 模型，支援靈活的多準則評分。

Results

實驗結果顯示 Themis-RM 在跨語言遷移上具備強大潛力，且模型表現隨著規模擴展呈現明顯的正向趨勢。與現有 50 多種模型相比，該系列模型在多維度評分與複雜偏好排序任務中展現出更高的準確性與可靠性。

Significance

此研究解決了程式碼生成中長期存在評估標準單一的問題，並釋出了目前最大規模的開源程式碼偏好資料集。這不僅為模型後對齊提供了更全面的架構，也為開發具備高品質、多語言能力的程式碼輔助工具奠定基礎。