Problem

大型視覺語言模型(LVLMs)常因缺乏視覺軌跡約束,導致嚴重的語言偏誤與幻覺問題。現有技術雖引入幾何專家知識作為監督,但這些資訊往往過度追求幾何精確度,對實際推理任務的助益有限,難以達成有效的視覺落地。

Method

提出「感知流網路(PFlowNet)」,核心在於將感知與推理過程解耦,建立自我制約的生成流程。該框架透過變分強化學習,將多維度獎勵與鄰近幾何塑型(vicinal geometric shaping)整合,促使模型在保持視覺可靠性的同時,展現具備推理導向的感知行為。

Results

PFlowNet 在多項基準測試中取得領先地位,特別是在 V* Bench 達到 90.6% 以及 MME-RealWorld-lite 達到 67.0% 的準確率,刷新了現有的 SOTA 紀錄,並提供可證明的效能保證。

Significance

這項研究證明了視覺感知不應僅限於僵化的幾何對齊。透過靈活的解耦設計與強化學習機制,能顯著提升模型在真實世界場景中的解釋性與推理效能,為解決視覺語言模型的幻覺困境提供了全新的路徑。