Meta 發佈 Code World Model 安全評估報告：證實模型無災難性風險並正式開放權重

Meta 針對程式碼生成模型 Code World Model 進行全面安全評估。測試涵蓋潛在災難性風險與模型偏離傾向，結果證實其安全性符合現有 AI 生態標準，因此決定以開放權重形式釋出。

Problem

大型語言模型在程式碼生成與推理能力上進步神速，但其潛在的安全性問題——特別是是否會被用於開發惡意程式或造成災難性網路安全風險——仍需在發佈前進行嚴格的量化評估，以確保其不會對既有環境造成額外威脅。

採用 Meta 的前沿 AI 框架（Frontier AI Framework）對 Code World Model (CWM) 進行預發佈測試。研究團隊針對多個可能產生災難性影響的領域進行深入分析，並同步評估模型是否具備偏離目標或對齊失調（misaligned）的傾向。

評估結果顯示，CWM 在各項安全指標上均未超出目前既有 AI 生態系所帶來的風險邊界。該模型雖然具備強大的程式碼處理能力，但並未提供額外的、前所未見的前沿風險（frontier risks），安全性完全符合開放標準。

此報告為 CWM 的開源提供了堅實的安全性基礎。透過以開放權重（open-weight）形式釋出模型，不僅能促進研究社群探索高品質的程式碼推理應用，也示範了大型模型在釋出前應有的負責任開發與透明化評估流程。