VectorGym：引領向量圖形生成與編輯的全新多任務基準測試，實現專業級 SVG 設計自動化

本研究推出 VectorGym 基準測試，涵蓋從草圖轉 SVG 到複雜編輯等四項任務。透過專家級人類標註與多任務強化學習，Qwen3-VL 8B 模型展現出媲美 GPT-4o 的專業設計能力。

Problem

現有的可縮放向量圖形（SVG）基準測試多依賴合成資料，缺乏專業設計工作流中的真實挑戰與人類設計意圖。這導致模型在處理複雜編輯、高階幾何原語應用及視覺語義理解時，難以達到實務應用的水準，且缺乏有效的自動化評估機制。

Method

研究團隊建構了包含四項核心任務（VG-Sketch、VG-Edit、VG-Text 與 VG-Cap）的 VectorGym 基準，提供具備設計意圖的專家標註。技術上採用基於 GRPO 與課程學習的多任務強化學習框架，利用渲染獎勵（rendering-based rewards）優化 Qwen3-VL 8B 模型。此外，亦開發了「VLM-as-a-Judge」評估指標，並通過人類相關性研究驗證其可靠性。

Results

經過優化的 Qwen3-VL 8B 模型在開源模型中取得領先地位，其表現不僅顯著超越參數量更大的 Qwen3-VL 235B，更在生成品質上足以媲美 GPT-4o。測試結果揭露了現有尖端大型視覺語言模型（VLM）在視覺代碼生成任務中仍存在顯著的效能落差。

Significance

VectorGym 透過提供具備人類設計邏輯的黃金標準資料集，有效填補了學術研究與專業設計需求間的鴻溝。此研究不僅提升了向量圖形生成的嚴謹性，也為未來 AI 輔助設計與自動化視覺創作工具的開發提供了關鍵的評估架構。