Problem
現有的大型語言模型(LLM)解釋性工具大多僅應用於短提示或簡單的實驗性環境,對於模型在現實世界常用基準測試中為何失敗,缺乏深入且具規模化的分析。這使得開發者難以理解模型在處理複雜任務時的內核錯誤根源。
Method
本研究提出以對比歸因為核心的分析框架,利用基於層級相關傳遞(LRP)的技術,將錯誤詞元與正確替代詞元之間的 Logit 差異,歸因至輸入詞元與模型的內部狀態。此外,研究開發出一種高效的擴充方案,能針對長文本輸入建構跨層歸因圖,並跨數據集、模型規模及訓練節點進行系統化比較。
Results
實證研究顯示,詞元級別的對比歸因在部分失敗案例中能提供極具價值的診斷信號,幫助理解模型的決策路徑。然而,這種方法的效用並非全域通用,研究同時指出其在現實分析中的局限性,顯示出歸因信號在不同場景下的異質性。
Significance
這項研究為 LLM 在真實應用中的錯誤診斷提供了實務工具與框架,不僅縮小了理論解釋工具與現實效能分析間的差距,也為未來開發更強韌、更可靠的人工智慧可解釋性技術指明了具體的改進方向。