Pare：透過模擬動態使用者行為，為「主動式 AI 助理」打造精確的數位評估環境

本論文開發了 Pare 框架，將應用程式建模為有限狀態機，以解決現有模擬器缺乏狀態感知的缺陷。搭配內含 143 個任務的 Pare-Bench，能更準確地評估主動式 Agent 的目標推論與執行能力。

Problem

主動式 AI 助理（Proactive Agents）雖然具有預測需求並自動執行任務的潛力，但目前的開發受限於缺乏真實的使用者模擬框架。現有方法多將應用程式簡化為平面的工具調用（API Calls），無法捕捉使用者在數位環境中具備狀態感知與連續性的互動本質，導致難以進行擬真的使用者模擬與評估。

Method

提出 Pare（Proactive Agent Research Environment）研究框架，將應用程式建模為具備狀態導航（Stateful Navigation）與狀態相關動作空間的「有限狀態機」（FSM）。在此基礎上，開發了 Pare-Bench 基準測試，包含 143 個涵蓋通訊、生產力、行程安排及生活型態應用的多元任務，用以測試 AI 的脈絡觀察與目標推論能力。

Results

Pare 框架成功實現了更具動態性的主動使用者模擬，能有效評估 AI 助理在介入時機、跨應用程式協調以及目標推論等方面的表現。Pare-Bench 的多樣化任務證明了該系統能更全面地反映主動式 Agent 在處理複雜且非結構化數位任務時的真實效能。

Significance

這項研究解決了主動式 AI 評估困難的瓶頸，提供了一個更貼近現實的測試標準。透過模擬真實的狀態切換與使用者互動，Pare 協助開發者更精確地優化 AI 助理的自主性，推動數位助理從單純的「被動回應」轉向具備「主動預測與介入」能力的技術轉移。