Problem
軟體日誌對於系統維護與除錯至關重要,但目前尚不清楚 AI 程式碼代理人在處理這類非功能性需求時的行為模式,以及自然語言指令是否能有效引導其產出高品質的日誌實踐。
Method
研究團隊針對 81 個開源儲存庫中,由 AI 代理人提交的 4,550 個 Pull Request (PR) 進行大規模實證研究,對比 AI 與人類在日誌記錄模式上的差異,並分析特定日誌指令對 AI 行為的實質影響。
Results
在 58.4% 的專案中,AI 更改日誌的頻率低於人類。雖然 AI 產出的日誌密度較高,但僅 4.7% 的指令包含明確日誌要求,且 AI 在 67% 的情況下未能遵循。此外,高達 72.5% 的日誌修復是由人類工程師在後續默默完成的「隱形成員」工作。
Significance
研究結果揭示了自然語言指令在引導 AI 記錄日誌上的雙重失敗,反映出 AI 與人類在系統觀測性認知上的落差。這暗示了未來必須建立更具強制性的技術規範或自動化機制,而非僅依賴提示詞,才能確保 AI 產出的程式碼具備穩定的維運品質。