Problem

目前的視覺語言模型(VLM)在回答圖像相關問題時僅能輸出純文字,缺乏人類直覺性的指向、標記或繪圖輔助。這導致模型的推理過程對使用者而言難以驗證,且在處理迷宮導航或軌跡預測等複雜空間任務時,單純依賴文字敘述往往難以達到理想的效果。

Method

研發團隊提出 SketchVLM,這是一個無需額外訓練且不限模型的通用框架。它能引導 VLM 在原始圖像上生成非破壞性、可編輯的 SVG(可縮放向量圖形)疊層,藉此視覺化模型的思考邏輯。該框架支援單輪快速生成,亦能透過多輪對話機制與使用者進行深度的人機協作。

Results

在涵蓋迷宮導航、物體計數與圖形繪製等七項基準測試中,SketchVLM 將視覺推理準確率提升了高達 28.5 個百分點,標記品質優於微調後的基準模型 1.48 倍。實驗證明,該框架產生的視覺標記能更忠實地反映模型的內在邏輯,並顯著優於傳統的圖像編輯方法。

Significance

這項研究為視覺語言模型開啟了新的互動維度,將 AI 的「思考過程」具象化。透過可編輯的 SVG 疊層,使用者不僅能更直觀地理解 AI 的判斷依據,更能進一步修正或引導模型的輸出。這對於醫療影像診斷、自動駕駛說明及精準的人機協作介面開發具有重大的應用價值。