ShapeCodeBench：利用可再生基準測試，評估從視覺影像到幾何繪圖程式的重建能力

本研究推出 ShapeCodeBench，這是一個評估模型將影像轉譯為可執行程式能力的動態基準測試。透過隨機生成的幾何場景與嚴謹指標，揭示了現有模型在精準參數重建上的局限性。

Problem

現有的電腦視覺模型雖然能識別物體，但難以將視覺資訊轉化為結構化的可執行程式碼。目前的測試集常面臨資料污染與場景飽和問題，導致難以公平評估模型在精確幾何重建與程式邏輯推理上的真實實力。

開發具備可再生特性的 ShapeCodeBench 框架，利用領域特定語言（DSL）定義四種基礎幾何圖形。系統基於隨機種子動態生成測試樣本，並釋出包含 150 個不同難度樣本的凍結版本。評估指標涵蓋精確匹配、像素準確度及執行成功率，並針對 Claude 與 GPT 等頂尖模型進行深度推理評測。

實驗顯示，傳統啟發式演算法在處理重疊形狀時效能大幅下降。儘管 Claude 4.7 與 GPT-5.5 等先進多模態模型能大致掌握前景結構，但因細微的參數誤差，在「精確匹配」指標上表現依然欠佳。目前的基準測試得分普遍偏低，顯示該領域仍有極大挑戰與進步空間。

此研究為「視覺到程式」重建任務提供了開源且具備抗污染能力的評估標準。它不僅能精確衡量多模態模型的幾何理解力，其可再生的特性也為未來開發更具韌性、更精準的視覺推理模型提供了關鍵的實驗基礎。