Transformer 注意力槽現象全解析：從機制解密到緩解策略的跨領域研究綜述

本綜述系統整理 Transformer 中「注意力槽」現象，從應用、機制及緩解三大維度，引領研究者克服模型幻覺與推理效率瓶頸，並提供未來模型演進的關鍵指引。

Problem

Transformer 模型常將不成比例的注意力權重過度集中於少數特定的無意義標記（token），這種現象被稱為「注意力槽」（Attention Sink）。這會嚴重降低模型的可解釋性，干擾訓練與推理的動態過程，並加劇模型產生幻覺等負面效能問題。

本論文提出首份針對注意力槽的系統性綜述，建構出「基礎利用」、「機制解釋」與「策略緩解」三大研究維度，將複雜的技術演進進行結構化分類，並同步整理開源資源以協助研究者快速掌握當前全球技術現狀。

研究釐清了注意力槽在 AI 各領域中的演進趨勢，定義了關鍵理論概念，並指出現有方法如何透過調整架構、重新導向或利用這些「槽位」來優化計算效率，進而緩解模型在處理長序列任務時的效能瓶頸。

這項研究為學術界與實務界提供了應對 Transformer 架構缺陷的權威指南。透過掌握注意力槽的管理技術，不僅能提升當前大規模語言模型的推理品質與穩定性，更為研發下一代高效能人工智慧架構提供了重要的靈感與理論基礎。