Problem

傳統的機器人流程自動化(RPA)在面對介面變動時極易失效,而新興基於視覺語言模型(VLM)的 AI 代理人則存在不可預測的執行風險、隱私疑慮,且在處理長途徑任務時速度較慢且成功率不穩定。

Method

提出 GPA 框架,僅需單次操作示範即可完成流程學習。核心技術包含:利用「序列蒙地卡羅(Sequential Monte Carlo)」定位法應對介面縮放與偵測不確定性,並透過「準備就緒校準(readiness calibration)」確保執行可靠性。系統支援全本地端執行,保障資料隱私,並可作為 MCP 或 CLI 工具供其他 AI 代理人調度。

Results

實驗結果顯示,GPA 在執行長途徑 GUI 任務時,成功率不僅超越了配備 CUA 工具的 Gemini 1.5 Pro,且執行速度更是對手的 10 倍。該系統成功將複雜的視覺推理轉化為確定性高、反應迅速的操作序列。

Significance

這項研究為企業工作流自動化提供了關鍵的穩定性與安全性,打破了以往自動化技術在魯棒性與靈活性之間的權衡,讓 AI 代理人能專注於決策邏輯,而將具體的介面操作交由 GPA 高效完成。