NumKong: 2000混合精度SIMD内核

高性能数值计算库 | 2026年3月21日

SIMD 高性能计算 数值计算 开源
⭐⭐⭐⭐ (4星)
摘要: 包含2000个SIMD内核的混合精度数值计算库,支持7种编程语言。可能是在线最大的SIMD集合之一,大小与OpenBLAS相当。

🚀 性能亮点

2000+
SIMD 内核
7
编程语言
  • Haversine/Vincenty 地理计算:比 GeoPy 快 5300x
  • Kabsch/Umeyama 网格对齐:比 BioPython 快 200x
  • Float8 GEMM:比 PyTorch 快 1000x
  • 二进制体积:仅 5MB(对比 OpenBLAS 的 705MB)

🔧 支持的硬件架构

  • RISC-V Vector Extensions (RVV)
  • Intel AMX (高级矩阵扩展)
  • Arm SME Tiles (可扩展矩阵扩展)
  • WebAssembly SIMD (AI沙箱、边缘计算、浏览器)

🔢 支持的数值精度

  • Float64 - 双精度浮点
  • Float32 - 单精度浮点
  • BFloat16 - Brain Float
  • Float16 - 半精度浮点
  • Float6 - E3M2 与 E2M3 (任意CPU)
  • Int4/UInt4 - 4位整数 (通过 Nibble Algebra)
  • Int8 - 8位整数

💎 高级算法特性

  • Neumaier & Dot2:高于 BLAS 精度的算法
  • Ozaki Scheme:通过 Float32 Tile 硬件实现 Float64 GEMM
  • Fused MaxSim:ColBERT GPU-Free Late Interaction Scoring

🌐 支持的编程语言

C, C++, Rust, Swift, JavaScript, GoLang, Python

📦 安装

pip install numkong

💡 核心洞察

"混合精度计算是AI硬件效率的关键"

NumKong 展示了如何通过精心设计的混合精度算法,在保持数值稳定性的同时大幅提升性能。这是现代 AI 硬件利用的关键技术。

🔗 资源链接

🔗 查看 GitHub 仓库