Problem
主動式 AI 助理(Proactive Agents)雖然具有預測需求並自動執行任務的潛力,但目前的開發受限於缺乏真實的使用者模擬框架。現有方法多將應用程式簡化為平面的工具調用(API Calls),無法捕捉使用者在數位環境中具備狀態感知與連續性的互動本質,導致難以進行擬真的使用者模擬與評估。
Method
提出 Pare(Proactive Agent Research Environment)研究框架,將應用程式建模為具備狀態導航(Stateful Navigation)與狀態相關動作空間的「有限狀態機」(FSM)。在此基礎上,開發了 Pare-Bench 基準測試,包含 143 個涵蓋通訊、生產力、行程安排及生活型態應用的多元任務,用以測試 AI 的脈絡觀察與目標推論能力。
Results
Pare 框架成功實現了更具動態性的主動使用者模擬,能有效評估 AI 助理在介入時機、跨應用程式協調以及目標推論等方面的表現。Pare-Bench 的多樣化任務證明了該系統能更全面地反映主動式 Agent 在處理複雜且非結構化數位任務時的真實效能。
Significance
這項研究解決了主動式 AI 評估困難的瓶頸,提供了一個更貼近現實的測試標準。透過模擬真實的狀態切換與使用者互動,Pare 協助開發者更精確地優化 AI 助理的自主性,推動數位助理從單純的「被動回應」轉向具備「主動預測與介入」能力的技術轉移。