Problem
現有評測基準多侷限於預定義或人工合成的簡易檔案,缺乏真實辦公環境中異質檔案間複雜且隱含的依賴關係,導致學界難以精確衡量 AI 代理人在處理大規模工作空間任務時的推理與執行能力。
Method
開發 Workspace-Bench 評測系統,建構包含 5 種職務背景、74 種檔案類型及逾 2 萬個檔案(總計 20GB)的大型資料庫。設計 388 項任務,每項均配備專屬檔案依賴圖,並透過 7,399 條評分準則進行嚴謹評估。此外,亦推出節省 70% 成本的 Lite 精簡版。
Results
實驗評估 4 種代理人架構與 7 個基礎模型,發現最強模型得分僅為 68.7%,遠低於人類表現的 80.7%,且代理人的平均得分僅 47.4%,顯示現有技術在處理具備高度檔案依賴性的任務時仍缺乏穩定性。
Significance
此研究為 AI 的「工作空間學習」建立了極具挑戰性的新標準。透過大規模且高度寫實的檔案環境,推動 AI 代理人從處理單一任務,演進至能理解並操縱複雜辦公體系,為自動化數位工作的未來發展奠定基礎。