AI 寫論文靠譜嗎？PaperRecon 框架深度評測 Claude 與 Codex 的寫作品質與幻覺風險

本研究推出 PaperRecon 評估框架與 PaperWrite-Bench 基準測試，透過重建實驗揭露 AI 寫作在呈現品質與事實幻覺間的權衡，為學術界提供衡量 AI 論文可靠性的新標準。

Problem

隨著 AI 代理人輔助論文寫作日益盛行，目前仍缺乏系統性的評估框架來量化這些 AI 生成論文的寫作品質與潛在風險，導致研究社群難以對其可靠程度達成統一的理解。

提出「論文重建評估」（PaperRecon）框架，利用現有論文的概述讓 AI 代理人嘗試重建完整論文。評估維度分為「呈現品質」與「幻覺」兩大主軸，前者透過評分量表衡量，後者則以原始論文為基準進行自動化評測，並建立包含 51 篇頂尖論文的 PaperWrite-Bench 基準。

實驗揭露了明顯的效能權衡：ClaudeCode 雖然在呈現品質上表現優異，但平均每篇論文會產生超過 10 個幻覺；相反地，Codex 產生的幻覺較少，但在寫作呈現品質上則顯著遜色。

此研究為 AI 驅動的學術寫作奠定了首個評估標準，不僅協助研究社群識別 AI 工具的潛在風險，也為未來開發更具誠信且高品質的科學寫作工具提供重要方向。