Problem

目前的胸部 X 光報告生成主要依賴自動迴歸視覺語言模型,但其逐字解碼的特性導致推論延遲過高。雖然擴散模型具備平行生成的潛力,但通常需要多次去噪疊代;若強行將其壓縮至單步生成,常會因為 Token 的因子化去噪偏誤(Mean-field bias)而導致文本連貫性下降。

Method

研究團隊開發了名為 ECHO 的高效擴散視覺語言模型(dVLM),引入「直接條件蒸餾」(DCD)框架,透過建構來自擴散軌跡的非因子化監督資訊,有效捕捉 Token 間的聯合相依性,達成穩定的單步區塊推論。此外,採用「響應不對稱擴散」(RAD)訓練策略,在維持模型效能的同時進一步提升訓練效率。

Results

實驗結果顯示,ECHO 在各項指標上均優於現有的先進自動迴歸方法,其中 RaTE 與 SemScore 分別顯著提升了 64.33% 與 60.58%。更重要的是,ECHO 在不損害臨床準確性的前提下,成功實現了 8 倍的推論加速。

Significance

這項研究解決了醫療影像報告生成在速度與品質之間的權衡問題。透過突破擴散模型的效能瓶頸,ECHO 為臨床放射診斷提供了即時且高品質的自動化方案,能有效減輕醫師的文書工作負擔,具備極高的實務應用價值。