Problem
大型語言模型在進行長文本推理時,會產生龐大的 KV 快取(KV Cache)記憶體負擔。現有的壓縮技術多依賴旋轉位置編碼(RoPE)後的注意力分數來估計重要性,但由於向量隨位置旋轉,導致難以穩定地選取關鍵資料,造成推理效能不佳且記憶體佔用過高。
Method
提出 TriAttention 框架,轉向分析 RoPE 旋轉前的向量空間。研究發現 Q 與 K 向量在旋轉前具有高度集中的中心性,這些中心點透過三角級數決定了模型對特定距離(如近鄰)的注意力偏好。TriAttention 結合此距離偏好與向量範數(norms)來精確評估 Key 的重要性。
Results
在 AIME25 的 32K token 生成測試中,TriAttention 的推理準確率與全注意力機制(Full Attention)相當,但達成 10.7 倍的 KV 記憶體縮減或 2.5 倍的吞吐量提升。在相同效率配置下,現有基準模型的準確率僅約為本研究的一半。
Significance
此研究成功克服了長上下文推理的硬體限制,使 OpenClaw 等模型能部署於單張消費級 GPU 上,避免了以往常見的記憶體不足(OOM)問題。這為高效能長文本 AI 應用的平民化提供了關鍵的技術支撐。