Problem
現有的可縮放向量圖形(SVG)基準測試多依賴合成資料,缺乏專業設計工作流中的真實挑戰與人類設計意圖。這導致模型在處理複雜編輯、高階幾何原語應用及視覺語義理解時,難以達到實務應用的水準,且缺乏有效的自動化評估機制。
Method
研究團隊建構了包含四項核心任務(VG-Sketch、VG-Edit、VG-Text 與 VG-Cap)的 VectorGym 基準,提供具備設計意圖的專家標註。技術上採用基於 GRPO 與課程學習的多任務強化學習框架,利用渲染獎勵(rendering-based rewards)優化 Qwen3-VL 8B 模型。此外,亦開發了「VLM-as-a-Judge」評估指標,並通過人類相關性研究驗證其可靠性。
Results
經過優化的 Qwen3-VL 8B 模型在開源模型中取得領先地位,其表現不僅顯著超越參數量更大的 Qwen3-VL 235B,更在生成品質上足以媲美 GPT-4o。測試結果揭露了現有尖端大型視覺語言模型(VLM)在視覺代碼生成任務中仍存在顯著的效能落差。
Significance
VectorGym 透過提供具備人類設計邏輯的黃金標準資料集,有效填補了學術研究與專業設計需求間的鴻溝。此研究不僅提升了向量圖形生成的嚴謹性,也為未來 AI 輔助設計與自動化視覺創作工具的開發提供了關鍵的評估架構。