Problem

隨著 AI 代理人輔助論文寫作日益盛行,目前仍缺乏系統性的評估框架來量化這些 AI 生成論文的寫作品質與潛在風險,導致研究社群難以對其可靠程度達成統一的理解。

Method

提出「論文重建評估」(PaperRecon)框架,利用現有論文的概述讓 AI 代理人嘗試重建完整論文。評估維度分為「呈現品質」與「幻覺」兩大主軸,前者透過評分量表衡量,後者則以原始論文為基準進行自動化評測,並建立包含 51 篇頂尖論文的 PaperWrite-Bench 基準。

Results

實驗揭露了明顯的效能權衡:ClaudeCode 雖然在呈現品質上表現優異,但平均每篇論文會產生超過 10 個幻覺;相反地,Codex 產生的幻覺較少,但在寫作呈現品質上則顯著遜色。

Significance

此研究為 AI 驅動的學術寫作奠定了首個評估標準,不僅協助研究社群識別 AI 工具的潛在風險,也為未來開發更具誠信且高品質的科學寫作工具提供重要方向。