Problem

目前的影像編輯基準測試面臨任務涵蓋範圍過窄的問題,且標準評估指標難以精確衡量編輯前後的視覺一致性(如身份辨識、結構完整性與語義連貫性),導致模型表現與人類真實感受之間存在明顯落差。

Method

研究團隊推出 GEditBench v2,涵蓋 23 類任務共 1,200 個真實使用者查詢,並加入開放式任務分類。同時開發開源模型 PVC-Judge,利用區域解耦的偏好資料合成技術進行訓練,並建立專家標註的 VCReward-Bench 以驗證評估效能與人類判斷的對齊程度。

Results

實驗證實 PVC-Judge 在開源模型中達到頂尖評估效能,平均表現甚至超越了 GPT-5.1。透過對 16 個前沿編輯模型的基準測試,成功揭示了現有模型在處理複雜指令時的局限性,並提供更符合人類直覺的評比結果。

Significance

此研究為影像編輯領域提供了具備公信力的評估框架,解決了自動化指標與人類審美脫節的問題。其開源的 PVC-Judge 為開發精準影像編輯模型奠定了可靠基礎,有助於推動更具魯棒性的生成式人工智慧發展。