The Weight of Remembering: KV Cache的演进

AI LLM KV Cache 技术深度 ★★★★★

核心发现

            关键数据: KV Cache 从 GPT-2 的 300 KiB/token 降至 DeepSeek V3 的 68.6 KiB/token，降幅超过 77%
        

文章摘要

这是一篇关于 LLM 中 KV Cache 演进的技术深度分析。文章从技术角度解释了什么是 KV Cache，以及为什么它对 LLM 推理至关重要。

KV Cache 演进历程

1. GPT-2 (2019): 完整记忆

每个注意力头维护独立的 key-value 集合，300 KiB/token。没有共享，没有捷径。

2. Llama 3 (2024): 分组查询注意

多个查询头共享相同的 keys 和 values，128 KiB/token。不到 GPT-2 的一半，质量几乎无损。

3. DeepSeek V3 (2024): 多头潜在注意

MLA 将 key-value 张量压缩到低维潜在空间，68.6 KiB/token。尽管模型有 671B 参数。

4. Gemma 3 (2025): 滑动窗口

5:1 局部到全局注意比率，局部层只关注 1024 个 token。最近上下文保持清晰。

5. Mamba: 状态空间模型

固定大小隐藏状态，无需 KV Cache。模型实时决定要压缩什么。

"Total recall, then shared perspectives, then compressed abstraction, then selective attention. And off to the side, a school of thought that says: maybe the question was never how to remember better, but how to need less memory in the first place."

实际问题

缓存生命周期: OpenAI 文档建议 5-10 分钟，之后被驱逐
API 定价: OpenAI 缓存命中减价 50%，Anthropic 减价 90%
上下文腐败: 长对话后模型变得模糊和重复

架构空白

KV Cache 是工作记忆，秒到分钟级别。GPU 需要内存时，它就消失了。在这种易失性工作和记忆与模型的永久知识（训练权重）之间，没有任何原生中等记忆机制。

人类有海马体在睡眠时整合体验，逐渐将它们转移到皮层。当前 AI 架构中的对应物是一块空白。

来源: future-shock.ai | Hacker News