TurboQuant: Redefining AI efficiency with extreme compression
摘要
Google Research在ICLR 2026发表的新一代AI模型压缩技术。TurboQuant解决了传统向量量化的内存开销问题,实现KV cache压缩6倍、精度零损失的突破。
Google Research在ICLR 2026发表的新一代AI模型压缩技术。TurboQuant解决了传统向量量化的内存开销问题,实现KV cache压缩6倍、精度零损失的突破。
核心亮点
- 6倍压缩:KV cache压缩6倍,精度零损失
- 8倍加速:H100 GPU上4-bit TurboQuant达8倍性能提升
- 解决内存开销:消除传统方法的1-2位额外开销
- 向量搜索超越:召回率超越PQ和RabbiQ等SOTA方法
技术原理
TurboQuant结合两种创新技术:
PolarQuant:极坐标压缩
将标准坐标(XYZ)转换为极坐标(半径+角度),利用角度分布高度集中的特性,无需数据归一化,消除内存开销。
QJL:零开销1位技巧
使用Johnson-Lindenstrauss变换将每个结果数缩减为单个符号位(+1或-1),使用特殊估计器平衡高精度查询与低精度数据,保持注意力分数准确。
实验结果
- LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval基准测试全部达到最优
- 长上下文"大海捞针"任务实现完美结果
- 无需训练或微调即可实现3-bit量化
- Gemma和Mistral模型上验证有效
应用场景
- 向量搜索:显著加速索引构建过程
- KV cache压缩:降低内存成本,提升推理效率
- 边缘设备部署:使大型模型可在资源受限设备运行
来源: Google Research Blog | 论文: arXiv 2504.19874 (ICLR 2026)