SlopCodeBench：揭開 AI 編程代理在長效迭代開發中品質惡化的真相

本研究提出 SlopCodeBench 基準測試，揭示 AI 編程代理在長期迭代任務中，會隨開發過程顯著增加程式碼冗贅與結構侵蝕，顯示當前模型仍缺乏軟體架構的設計紀律。

Problem

現有的 AI 程式碼評測基準大多專注於「單次生成」解決方案，忽略了軟體開發本質上是多次迭代的過程。雖然 AI 生成的程式碼可能通過測試，但往往隨著開發次數增加而變得難以維護或擴充。現有的迭代基準則過度限制了代理的設計權限，無法真實反映程式碼品質如何影響後續的開發行為。

Method

研究團隊開發了 SlopCodeBench 基準測試，包含 20 個問題與 93 個檢查點。該測試要求 AI 代理在不斷演進的規格下，多次擴展自己先前編寫的程式碼，且不預設內部架構。評估指標包含「冗贅度」（重複代碼比例）與「結構侵蝕」（複雜度過度集中於特定函式的程度），並將其結果與 48 個開源 Python 專案的人類開發軌跡進行對比。

Results

在 11 個受測模型中，沒有任何 AI 代理能完整走完所有迭代任務，最高檢查點通過率僅為 17.2%。數據顯示 AI 生成的程式碼品質會穩定下降：80% 的路徑出現結構侵蝕，89.8% 出現冗贅化。與人類開發的專案相比，AI 生成的代碼冗贅度高出 2.2 倍。人類代碼品質能隨時間保持穩定，而 AI 代碼則隨每次迭代而劣化，且提示詞干預也無法阻止這種趨勢。

Significance

這項研究證明了單純的「測試通過率」不足以衡量 AI 代理的開發能力。AI 代理目前極度缺乏軟體開發所需的設計紀律，這對於長期維護與真實場景的軟體工程構成重大挑战。SlopCodeBench 為評估 AI 是否具備長效開發的健壯性提供了關鍵的量化標準。