LLM 也能當財務長？EnterpriseArena 挑戰大型語言模型在動態環境下的長程資源配置能力

本研究提出 EnterpriseArena 基準測試，模擬長達 132 個月的企業環境，評估 LLM 代理人在不確定性下進行長程資源分配的能力，填補了當前 AI 決策能力的評估空白。

Problem

雖然大型語言模型（LLM）展現出優異的推理與規劃能力，但其在不確定環境下進行「長程資源分配」的表現仍未被充分探索。與短期的即時反應決策不同，企業級資源配置必須在稀缺資源、競爭目標以及保留未來彈性之間取得平衡，這對現有 AI 代理人構成了極大的考驗。

Method

研究團隊開發了首個專為評估代理人長程財務決策能力的基準測試 EnterpriseArena。該工具構建了一個模擬 132 個月經營週期的企業環境，結合了真實財務資料、匿名商務文件、總體經濟與產業信號，以及專家驗證的營運規則。此環境具有「部分可觀察性」，迫使代理人在花費預算獲取資訊與節省現有資源之間進行權衡。

Results

針對 11 款先進 LLM 的實驗顯示，現有的 AI 模型在資源管理上仍面臨嚴峻挑戰：僅有 16% 的測試能撐過完整的經營週期，且較大型的模型並未在表現上展現出絕對優勢。這結果表明，在充滿不確定性的長程決策情境中，現有的 LLM 代理人存在明顯的能力斷層。

Significance

這項研究定義了 LLM 在專業領域應用的一項關鍵技術缺口，證明單純的模型規模提升並不足以解決複雜的資源配置問題。EnterpriseArena 為未來開發具備專業財務管理能力、能應對動態企業環境的自主 AI 系統提供了一個標準化的評估架構。