AI
GPU
Algorithms
Performance
Flash-KMeans - GPU 加速精确 K-Means
摘要
MIT/Stanford 研究团队提出 Flash-KMeans,GPU 上精确 K-Means 的高效实现。现有的 GPU K-Means 实现受限于底层系统约束而非理论算法复杂度。
性能提升:
17.9x 端到端加速
33x vs cuML
200x+ vs FAISS
问题分析
Assignment 阶段瓶颈
严重的 IO 瓶颈:大量显式物化 N × K 距离矩阵在高带宽内存 (HBM) 中
Centroid Update 阶段瓶颈
硬件级原子写竞争:由于不规则的 scatter-style token 聚合导致
核心创新
1. FlashAssign
- 融合距离计算与在线 argmin
- 完全绕过中间内存物化
- 避免显式距离矩阵存储
2. Sort-Inverse Update
- 显式构建逆映射
- 将高竞争原子 scatters 转换为高带宽、分段局部归约
- 消除写竞争
3. Algorithm-System Co-Design
- Chunked-stream overlap: 分块流重叠
- Cache-aware compile heuristics: 缓存感知编译启发式
评估
NVIDIA H200 GPU 评估结果:
- 端到端加速 17.9x vs 最佳基线
- 相比 cuML 加速 33x
- 相比 FAISS 加速 200x+
URL
来源: Hacker News | 发现日期: 2026-03-20