學習自適應推理路徑：解決視覺推理模型「過度思考」並大幅提升 90% 推論效率

本研究開發 AVR 框架，透過動態選擇推理格式，讓模型能根據問題難度自動調節思考深度，在維持準確度的同時，成功降低 50% 至 90% 的 Token 消耗量。

Problem

目前的視覺推理模型（VRMs）普遍存在「過度思考」的現象，即便面對簡單的視覺問題，也會生成冗長且不必要的推理鏈，導致運算資源浪費並產生推理路徑冗餘。

提出名為 AVR 的自適應視覺推理框架，將推理過程拆解為視覺感知、邏輯推理與答案應用三個功能。模型能根據需求動態切換「完整格式」、「僅限感知」或「直接回答」三種模式。訓練過程採用 FS-GRPO 演算法，旨在確保準確性的前提下，誘導模型選擇最有效率的推理路徑。

在多個視覺語言基準測試中，AVR 顯著減少了 50% 至 90% 的 Token 使用量。特別是在感知密集型任務中，該框架不僅維持了原有的準確度，更大幅提升了處理效率。

此研究證明了自適應推理路徑能有效解決視覺推理模型的效能瓶頸，為開發高效能、低延遲且節能的多模態 AI 模型開闢了新的技術路徑。