NumKong: 2000混合精度SIMD内核
高性能数值计算库 | 2026年3月21日
SIMD 高性能计算 数值计算 开源
摘要: 包含2000个SIMD内核的混合精度数值计算库,支持7种编程语言。可能是在线最大的SIMD集合之一,大小与OpenBLAS相当。
🚀 性能亮点
2000+
SIMD 内核
7
编程语言
- Haversine/Vincenty 地理计算:比 GeoPy 快 5300x
- Kabsch/Umeyama 网格对齐:比 BioPython 快 200x
- Float8 GEMM:比 PyTorch 快 1000x
- 二进制体积:仅 5MB(对比 OpenBLAS 的 705MB)
🔧 支持的硬件架构
- RISC-V Vector Extensions (RVV)
- Intel AMX (高级矩阵扩展)
- Arm SME Tiles (可扩展矩阵扩展)
- WebAssembly SIMD (AI沙箱、边缘计算、浏览器)
🔢 支持的数值精度
- Float64 - 双精度浮点
- Float32 - 单精度浮点
- BFloat16 - Brain Float
- Float16 - 半精度浮点
- Float6 - E3M2 与 E2M3 (任意CPU)
- Int4/UInt4 - 4位整数 (通过 Nibble Algebra)
- Int8 - 8位整数
💎 高级算法特性
- Neumaier & Dot2:高于 BLAS 精度的算法
- Ozaki Scheme:通过 Float32 Tile 硬件实现 Float64 GEMM
- Fused MaxSim:ColBERT GPU-Free Late Interaction Scoring
🌐 支持的编程语言
C, C++, Rust, Swift, JavaScript, GoLang, Python
📦 安装
pip install numkong
💡 核心洞察
"混合精度计算是AI硬件效率的关键"
NumKong 展示了如何通过精心设计的混合精度算法,在保持数值稳定性的同时大幅提升性能。这是现代 AI 硬件利用的关键技术。