突破大模型幻覺：Perceptual Flow Network 透過解耦感知與推理提升視覺落地能力

本研究提出 PFlowNet，透過變分強化學習與解耦架構，修正大模型過度依賴語言偏誤的問題，在 V* Bench 與 MME-RealWorld 等評測中刷新全球紀錄。

Problem

大型視覺語言模型（LVLMs）常因缺乏視覺軌跡約束，導致嚴重的語言偏誤與幻覺問題。現有技術雖引入幾何專家知識作為監督，但這些資訊往往過度追求幾何精確度，對實際推理任務的助益有限，難以達成有效的視覺落地。

提出「感知流網路（PFlowNet）」，核心在於將感知與推理過程解耦，建立自我制約的生成流程。該框架透過變分強化學習，將多維度獎勵與鄰近幾何塑型（vicinal geometric shaping）整合，促使模型在保持視覺可靠性的同時，展現具備推理導向的感知行為。

PFlowNet 在多項基準測試中取得領先地位，特別是在 V* Bench 達到 90.6% 以及 MME-RealWorld-lite 達到 67.0% 的準確率，刷新了現有的 SOTA 紀錄，並提供可證明的效能保證。

這項研究證明了視覺感知不應僅限於僵化的幾何對齊。透過靈活的解耦設計與強化學習機制，能顯著提升模型在真實世界場景中的解釋性與推理效能，為解決視覺語言模型的幻覺困境提供了全新的路徑。