解鎖 AI 的視覺表達力：SketchVLM 讓模型學會畫圖解釋思維，顯著提升推理準確度

SketchVLM 是一個無需訓練的通用框架，讓視覺語言模型能產生可編輯的 SVG 圖像疊層。透過將思考過程視覺化，不僅顯著提升了推理準確率，更增進了 AI 回答的可信度。

Problem

目前的視覺語言模型（VLM）在回答圖像相關問題時僅能輸出純文字，缺乏人類直覺性的指向、標記或繪圖輔助。這導致模型的推理過程對使用者而言難以驗證，且在處理迷宮導航或軌跡預測等複雜空間任務時，單純依賴文字敘述往往難以達到理想的效果。

研發團隊提出 SketchVLM，這是一個無需額外訓練且不限模型的通用框架。它能引導 VLM 在原始圖像上生成非破壞性、可編輯的 SVG（可縮放向量圖形）疊層，藉此視覺化模型的思考邏輯。該框架支援單輪快速生成，亦能透過多輪對話機制與使用者進行深度的人機協作。

在涵蓋迷宮導航、物體計數與圖形繪製等七項基準測試中，SketchVLM 將視覺推理準確率提升了高達 28.5 個百分點，標記品質優於微調後的基準模型 1.48 倍。實驗證明，該框架產生的視覺標記能更忠實地反映模型的內在邏輯，並顯著優於傳統的圖像編輯方法。

這項研究為視覺語言模型開啟了新的互動維度，將 AI 的「思考過程」具象化。透過可編輯的 SVG 疊層，使用者不僅能更直觀地理解 AI 的判斷依據，更能進一步修正或引導模型的輸出。這對於醫療影像診斷、自動駕駛說明及精準的人機協作介面開發具有重大的應用價值。