Problem

大型語言模型在程式碼生成與推理能力上進步神速,但其潛在的安全性問題——特別是是否會被用於開發惡意程式或造成災難性網路安全風險——仍需在發佈前進行嚴格的量化評估,以確保其不會對既有環境造成額外威脅。

Method

採用 Meta 的前沿 AI 框架(Frontier AI Framework)對 Code World Model (CWM) 進行預發佈測試。研究團隊針對多個可能產生災難性影響的領域進行深入分析,並同步評估模型是否具備偏離目標或對齊失調(misaligned)的傾向。

Results

評估結果顯示,CWM 在各項安全指標上均未超出目前既有 AI 生態系所帶來的風險邊界。該模型雖然具備強大的程式碼處理能力,但並未提供額外的、前所未見的前沿風險(frontier risks),安全性完全符合開放標準。

Significance

此報告為 CWM 的開源提供了堅實的安全性基礎。透過以開放權重(open-weight)形式釋出模型,不僅能促進研究社群探索高品質的程式碼推理應用,也示範了大型模型在釋出前應有的負責任開發與透明化評估流程。