Problem

目前的視覺推理模型(VRMs)普遍存在「過度思考」的現象,即便面對簡單的視覺問題,也會生成冗長且不必要的推理鏈,導致運算資源浪費並產生推理路徑冗餘。

Method

提出名為 AVR 的自適應視覺推理框架,將推理過程拆解為視覺感知、邏輯推理與答案應用三個功能。模型能根據需求動態切換「完整格式」、「僅限感知」或「直接回答」三種模式。訓練過程採用 FS-GRPO 演算法,旨在確保準確性的前提下,誘導模型選擇最有效率的推理路徑。

Results

在多個視覺語言基準測試中,AVR 顯著減少了 50% 至 90% 的 Token 使用量。特別是在感知密集型任務中,該框架不僅維持了原有的準確度,更大幅提升了處理效率。

Significance

此研究證明了自適應推理路徑能有效解決視覺推理模型的效能瓶頸,為開發高效能、低延遲且節能的多模態 AI 模型開闢了新的技術路徑。