Problem

現有的 AI 程式碼評測基準大多專注於「單次生成」解決方案,忽略了軟體開發本質上是多次迭代的過程。雖然 AI 生成的程式碼可能通過測試,但往往隨著開發次數增加而變得難以維護或擴充。現有的迭代基準則過度限制了代理的設計權限,無法真實反映程式碼品質如何影響後續的開發行為。

Method

研究團隊開發了 SlopCodeBench 基準測試,包含 20 個問題與 93 個檢查點。該測試要求 AI 代理在不斷演進的規格下,多次擴展自己先前編寫的程式碼,且不預設內部架構。評估指標包含「冗贅度」(重複代碼比例)與「結構侵蝕」(複雜度過度集中於特定函式的程度),並將其結果與 48 個開源 Python 專案的人類開發軌跡進行對比。

Results

在 11 個受測模型中,沒有任何 AI 代理能完整走完所有迭代任務,最高檢查點通過率僅為 17.2%。數據顯示 AI 生成的程式碼品質會穩定下降:80% 的路徑出現結構侵蝕,89.8% 出現冗贅化。與人類開發的專案相比,AI 生成的代碼冗贅度高出 2.2 倍。人類代碼品質能隨時間保持穩定,而 AI 代碼則隨每次迭代而劣化,且提示詞干預也無法阻止這種趨勢。

Significance

這項研究證明了單純的「測試通過率」不足以衡量 AI 代理的開發能力。AI 代理目前極度缺乏軟體開發所需的設計紀律,這對於長期維護與真實場景的軟體工程構成重大挑战。SlopCodeBench 為評估 AI 是否具備長效開發的健壯性提供了關鍵的量化標準。