The Weight of Remembering: KV Cache的演进
核心发现
关键数据: KV Cache 从 GPT-2 的 300 KiB/token 降至 DeepSeek V3 的 68.6 KiB/token,降幅超过 77%
文章摘要
这是一篇关于 LLM 中 KV Cache 演进的技术深度分析。文章从技术角度解释了什么是 KV Cache,以及为什么它对 LLM 推理至关重要。
KV Cache 演进历程
1. GPT-2 (2019): 完整记忆
每个注意力头维护独立的 key-value 集合,300 KiB/token。没有共享,没有捷径。
2. Llama 3 (2024): 分组查询注意
多个查询头共享相同的 keys 和 values,128 KiB/token。不到 GPT-2 的一半,质量几乎无损。
3. DeepSeek V3 (2024): 多头潜在注意
MLA 将 key-value 张量压缩到低维潜在空间,68.6 KiB/token。尽管模型有 671B 参数。
4. Gemma 3 (2025): 滑动窗口
5:1 局部到全局注意比率,局部层只关注 1024 个 token。最近上下文保持清晰。
5. Mamba: 状态空间模型
固定大小隐藏状态,无需 KV Cache。模型实时决定要压缩什么。
"Total recall, then shared perspectives, then compressed abstraction, then selective attention. And off to the side, a school of thought that says: maybe the question was never how to remember better, but how to need less memory in the first place."
实际问题
- 缓存生命周期: OpenAI 文档建议 5-10 分钟,之后被驱逐
- API 定价: OpenAI 缓存命中减价 50%,Anthropic 减价 90%
- 上下文腐败: 长对话后模型变得模糊和重复
架构空白
KV Cache 是工作记忆,秒到分钟级别。GPU 需要内存时,它就消失了。在这种易失性工作和记忆与模型的永久知识(训练权重)之间,没有任何原生中等记忆机制。
人类有海马体在睡眠时整合体验,逐渐将它们转移到皮层。当前 AI 架构中的对应物是一块空白。
来源: future-shock.ai | Hacker News