Problem
視覺語言模型(VLM)在處理高解析度影像時,細碎的紋理細節常被視為雜訊,反而導致模型產生幻覺或邏輯推理錯誤,特別是在面對易受錯覺干擾的複雜視覺任務時,過多細節會成為負擔。
Method
研究提出「退化驅動提示」(DDP)框架。針對物理屬性任務,採用 80p 降採樣、白色背景遮罩與正交線等結構化輔助,並結合上下文學習(ICL);針對感知現象任務,則透過任務分類器調用模糊遮罩、對比度增強等工具,強迫模型專注於核心結構而非表面紋理。
Results
實驗證明「少即是多」,透過刻意降低影像精細度並輔以目標結構提示,DDP 能有效協助模型排除雜訊干擾。在實體屬性判斷與多種視覺錯覺基準測試中,DDP 的推理準確度皆顯著優於傳統的高解析度輸入方式。
Significance
此研究挑戰了視覺模型「影像解析度越高越好」的慣性思維,為提升 VLM 的魯棒性提供了全新視角。DDP 框架不僅能減少運算負擔,更為解決模型視覺幻覺問題提供了一套低成本且高效的系統化解決方案。