AI 程式碼代理人會像人類一樣記錄日誌嗎？針對 4,550 個 PR 的實證研究與行為分析

本研究調查 AI 代理人在軟體日誌記錄上的表現，發現其遵從指令率低，且多數日誌錯誤需由人類修復，顯示自然語言指令不足以規範 AI 的日誌行為。

Problem

軟體日誌對於系統維護與除錯至關重要，但目前尚不清楚 AI 程式碼代理人在處理這類非功能性需求時的行為模式，以及自然語言指令是否能有效引導其產出高品質的日誌實踐。

研究團隊針對 81 個開源儲存庫中，由 AI 代理人提交的 4,550 個 Pull Request (PR) 進行大規模實證研究，對比 AI 與人類在日誌記錄模式上的差異，並分析特定日誌指令對 AI 行為的實質影響。

在 58.4% 的專案中，AI 更改日誌的頻率低於人類。雖然 AI 產出的日誌密度較高，但僅 4.7% 的指令包含明確日誌要求，且 AI 在 67% 的情況下未能遵循。此外，高達 72.5% 的日誌修復是由人類工程師在後續默默完成的「隱形成員」工作。

研究結果揭示了自然語言指令在引導 AI 記錄日誌上的雙重失敗，反映出 AI 與人類在系統觀測性認知上的落差。這暗示了未來必須建立更具強制性的技術規範或自動化機制，而非僅依賴提示詞，才能確保 AI 產出的程式碼具備穩定的維運品質。