TriAttention：利用三角 KV 壓縮技術突破長文本推理瓶頸，顯著提升大語言模型效率

本研究提出 TriAttention，透過分析 RoPE 前的向量集中性與三角級數關聯，精確估計 KV 快取重要性，在維持高推理準確度的同時大幅降低記憶體消耗。

Problem

大型語言模型在進行長文本推理時，會產生龐大的 KV 快取（KV Cache）記憶體負擔。現有的壓縮技術多依賴旋轉位置編碼（RoPE）後的注意力分數來估計重要性，但由於向量隨位置旋轉，導致難以穩定地選取關鍵資料，造成推理效能不佳且記憶體佔用過高。

提出 TriAttention 框架，轉向分析 RoPE 旋轉前的向量空間。研究發現 Q 與 K 向量在旋轉前具有高度集中的中心性，這些中心點透過三角級數決定了模型對特定距離（如近鄰）的注意力偏好。TriAttention 結合此距離偏好與向量範數（norms）來精確評估 Key 的重要性。

在 AIME25 的 32K token 生成測試中，TriAttention 的推理準確率與全注意力機制（Full Attention）相當，但達成 10.7 倍的 KV 記憶體縮減或 2.5 倍的吞吐量提升。在相同效率配置下，現有基準模型的準確率僅約為本研究的一半。

此研究成功克服了長上下文推理的硬體限制，使 OpenClaw 等模型能部署於單張消費級 GPU 上，避免了以往常見的記憶體不足（OOM）問題。這為高效能長文本 AI 應用的平民化提供了關鍵的技術支撐。