GPA：基於視覺與單次示範的 GUI 流程自動化，實現十倍速高效穩定的任務執行

GPA 透過單次示範與序列蒙地卡羅定位技術，解決傳統 RPA 的脆弱性與大型模型代理人的不確定性，為企業流程提供兼具隱私、高穩定性與極速執行的自動化方案。

Problem

傳統的機器人流程自動化（RPA）在面對介面變動時極易失效，而新興基於視覺語言模型（VLM）的 AI 代理人則存在不可預測的執行風險、隱私疑慮，且在處理長途徑任務時速度較慢且成功率不穩定。

Method

提出 GPA 框架，僅需單次操作示範即可完成流程學習。核心技術包含：利用「序列蒙地卡羅（Sequential Monte Carlo）」定位法應對介面縮放與偵測不確定性，並透過「準備就緒校準（readiness calibration）」確保執行可靠性。系統支援全本地端執行，保障資料隱私，並可作為 MCP 或 CLI 工具供其他 AI 代理人調度。

Results

實驗結果顯示，GPA 在執行長途徑 GUI 任務時，成功率不僅超越了配備 CUA 工具的 Gemini 1.5 Pro，且執行速度更是對手的 10 倍。該系統成功將複雜的視覺推理轉化為確定性高、反應迅速的操作序列。

Significance

這項研究為企業工作流自動化提供了關鍵的穩定性與安全性，打破了以往自動化技術在魯棒性與靈活性之間的權衡，讓 AI 代理人能專注於決策邏輯，而將具體的介面操作交由 GPA 高效完成。