Problem

雖然大型語言模型(LLM)展現出優異的推理與規劃能力,但其在不確定環境下進行「長程資源分配」的表現仍未被充分探索。與短期的即時反應決策不同,企業級資源配置必須在稀缺資源、競爭目標以及保留未來彈性之間取得平衡,這對現有 AI 代理人構成了極大的考驗。

Method

研究團隊開發了首個專為評估代理人長程財務決策能力的基準測試 EnterpriseArena。該工具構建了一個模擬 132 個月經營週期的企業環境,結合了真實財務資料、匿名商務文件、總體經濟與產業信號,以及專家驗證的營運規則。此環境具有「部分可觀察性」,迫使代理人在花費預算獲取資訊與節省現有資源之間進行權衡。

Results

針對 11 款先進 LLM 的實驗顯示,現有的 AI 模型在資源管理上仍面臨嚴峻挑戰:僅有 16% 的測試能撐過完整的經營週期,且較大型的模型並未在表現上展現出絕對優勢。這結果表明,在充滿不確定性的長程決策情境中,現有的 LLM 代理人存在明顯的能力斷層。

Significance

這項研究定義了 LLM 在專業領域應用的一項關鍵技術缺口,證明單純的模型規模提升並不足以解決複雜的資源配置問題。EnterpriseArena 為未來開發具備專業財務管理能力、能應對動態企業環境的自主 AI 系統提供了一個標準化的評估架構。