Problem

現有的電腦視覺模型雖然能識別物體,但難以將視覺資訊轉化為結構化的可執行程式碼。目前的測試集常面臨資料污染與場景飽和問題,導致難以公平評估模型在精確幾何重建與程式邏輯推理上的真實實力。

Method

開發具備可再生特性的 ShapeCodeBench 框架,利用領域特定語言(DSL)定義四種基礎幾何圖形。系統基於隨機種子動態生成測試樣本,並釋出包含 150 個不同難度樣本的凍結版本。評估指標涵蓋精確匹配、像素準確度及執行成功率,並針對 Claude 與 GPT 等頂尖模型進行深度推理評測。

Results

實驗顯示,傳統啟發式演算法在處理重疊形狀時效能大幅下降。儘管 Claude 4.7 與 GPT-5.5 等先進多模態模型能大致掌握前景結構,但因細微的參數誤差,在「精確匹配」指標上表現依然欠佳。目前的基準測試得分普遍偏低,顯示該領域仍有極大挑戰與進步空間。

Significance

此研究為「視覺到程式」重建任務提供了開源且具備抗污染能力的評估標準。它不僅能精確衡量多模態模型的幾何理解力,其可再生的特性也為未來開發更具韌性、更精準的視覺推理模型提供了關鍵的實驗基礎。