Problem
標準的 KV 快取(Key-Value Cache)具備強烈的上下文依賴性,導致同一份文件在不同脈絡下被重新使用時,系統必須重新計算 KV 狀態以因應注意力分佈的移位。現有的解決方案雖能減少部分計算,但仍會產生顯著的運算開銷(FLOPs)並增加首字產出延遲(TTFT),難以達到真正的即時重用。
Method
提出名為「KV Packet」的免重算快取重用框架。該方法將快取文件視為不可變的「封包」,並在封包前後包覆輕量級的可訓練「軟標記適配器(soft-token adapters)」。這些適配器透過自監督蒸餾技術進行訓練,旨在彌合不同上下文之間的斷層,讓模型無需重新計算 KV 狀態即可直接銜接資訊。
Results
在 Llama-3.1 與 Qwen2.5 的實驗中,KV Packet 展現了極高的效能優勢。與需要部分重算的基準模型相比,該方法實現了趨近於零的額外運算開銷(FLOPs)以及更低的首字產出延遲(TTFT)。同時,其在檢索評測的 F1 分數上,仍能保持與完整重新計算基準相當的精確度水準。
Significance
這項研究為長文本處理與大規模快取重用提供了極具效率的解決方案。它打破了傳統 KV 快取必須隨上下文重新計算的限制,能顯著降低大型語言模型的推論成本,對於需要頻繁檢索固定知識庫或長文件的應用場景(如 RAG)具有重大實務價值。