挑戰真實辦公場景：Workspace-Bench 1.0 揭示 AI 代理人在大規模檔案處理中的顯著能力差距

本研究提出 Workspace-Bench 基準測試，模擬真實且具備複雜檔案依賴性的工作環境，旨在評估 AI 代理人在跨文件檢索、情境推理與適應性決策上的實際效能。

Problem

現有評測基準多侷限於預定義或人工合成的簡易檔案，缺乏真實辦公環境中異質檔案間複雜且隱含的依賴關係，導致學界難以精確衡量 AI 代理人在處理大規模工作空間任務時的推理與執行能力。

開發 Workspace-Bench 評測系統，建構包含 5 種職務背景、74 種檔案類型及逾 2 萬個檔案（總計 20GB）的大型資料庫。設計 388 項任務，每項均配備專屬檔案依賴圖，並透過 7,399 條評分準則進行嚴謹評估。此外，亦推出節省 70% 成本的 Lite 精簡版。

實驗評估 4 種代理人架構與 7 個基礎模型，發現最強模型得分僅為 68.7%，遠低於人類表現的 80.7%，且代理人的平均得分僅 47.4%，顯示現有技術在處理具備高度檔案依賴性的任務時仍缺乏穩定性。

此研究為 AI 的「工作空間學習」建立了極具挑戰性的新標準。透過大規模且高度寫實的檔案環境，推動 AI 代理人從處理單一任務，演進至能理解並操縱複雜辦公體系，為自動化數位工作的未來發展奠定基礎。