GEditBench v2：引入擬人化評估基準與 PVC-Judge 模型，重新定義影像編輯的一致性標準

本研究推出包含 1,200 個真實查詢的 GEditBench v2 基準測試，並開發 PVC-Judge 評分模型，顯著提升影像編輯視覺一致性的評估準確度，效能超越 GPT-5.1。

Problem

目前的影像編輯基準測試面臨任務涵蓋範圍過窄的問題，且標準評估指標難以精確衡量編輯前後的視覺一致性（如身份辨識、結構完整性與語義連貫性），導致模型表現與人類真實感受之間存在明顯落差。

研究團隊推出 GEditBench v2，涵蓋 23 類任務共 1,200 個真實使用者查詢，並加入開放式任務分類。同時開發開源模型 PVC-Judge，利用區域解耦的偏好資料合成技術進行訓練，並建立專家標註的 VCReward-Bench 以驗證評估效能與人類判斷的對齊程度。

實驗證實 PVC-Judge 在開源模型中達到頂尖評估效能，平均表現甚至超越了 GPT-5.1。透過對 16 個前沿編輯模型的基準測試，成功揭示了現有模型在處理複雜指令時的局限性，並提供更符合人類直覺的評比結果。

此研究為影像編輯領域提供了具備公信力的評估框架，解決了自動化指標與人類審美脫節的問題。其開源的 PVC-Judge 為開發精準影像編輯模型奠定了可靠基礎，有助於推動更具魯棒性的生成式人工智慧發展。