ECHO：利用單步區塊擴散模型實現高效胸部 X 光報告生成，大幅提升推論速度與臨床準確性

本研究提出 ECHO 擴散視覺語言模型，透過創新的直接條件蒸餾框架實現單步區塊推論。在維持臨床準確性的前提下，將推論速度提升 8 倍，並大幅優化文本生成的連貫性與品質。

Problem

目前的胸部 X 光報告生成主要依賴自動迴歸視覺語言模型，但其逐字解碼的特性導致推論延遲過高。雖然擴散模型具備平行生成的潛力，但通常需要多次去噪疊代；若強行將其壓縮至單步生成，常會因為 Token 的因子化去噪偏誤（Mean-field bias）而導致文本連貫性下降。

研究團隊開發了名為 ECHO 的高效擴散視覺語言模型（dVLM），引入「直接條件蒸餾」（DCD）框架，透過建構來自擴散軌跡的非因子化監督資訊，有效捕捉 Token 間的聯合相依性，達成穩定的單步區塊推論。此外，採用「響應不對稱擴散」（RAD）訓練策略，在維持模型效能的同時進一步提升訓練效率。

實驗結果顯示，ECHO 在各項指標上均優於現有的先進自動迴歸方法，其中 RaTE 與 SemScore 分別顯著提升了 64.33% 與 60.58%。更重要的是，ECHO 在不損害臨床準確性的前提下，成功實現了 8 倍的推論加速。

這項研究解決了醫療影像報告生成在速度與品質之間的權衡問題。透過突破擴散模型的效能瓶頸，ECHO 為臨床放射診斷提供了即時且高品質的自動化方案，能有效減輕醫師的文書工作負擔，具備極高的實務應用價值。