實戰中的對比歸因：揭開大型語言模型在現實基準測試中失敗的原因分析

本研究利用層級相關傳遞（LRP）開發對比歸因技術，分析大型語言模型在現實場景下的失敗模式，並針對長文本提出高效歸因圖建構法，揭示其在模型除錯中的潛力與限制。

Problem

現有的大型語言模型（LLM）解釋性工具大多僅應用於短提示或簡單的實驗性環境，對於模型在現實世界常用基準測試中為何失敗，缺乏深入且具規模化的分析。這使得開發者難以理解模型在處理複雜任務時的內核錯誤根源。

本研究提出以對比歸因為核心的分析框架，利用基於層級相關傳遞（LRP）的技術，將錯誤詞元與正確替代詞元之間的 Logit 差異，歸因至輸入詞元與模型的內部狀態。此外，研究開發出一種高效的擴充方案，能針對長文本輸入建構跨層歸因圖，並跨數據集、模型規模及訓練節點進行系統化比較。

實證研究顯示，詞元級別的對比歸因在部分失敗案例中能提供極具價值的診斷信號，幫助理解模型的決策路徑。然而，這種方法的效用並非全域通用，研究同時指出其在現實分析中的局限性，顯示出歸因信號在不同場景下的異質性。

這項研究為 LLM 在真實應用中的錯誤診斷提供了實務工具與框架，不僅縮小了理論解釋工具與現實效能分析間的差距，也為未來開發更強韌、更可靠的人工智慧可解釋性技術指明了具體的改進方向。