性能指标
14×
更小模型体积
8×
推理速度提升
5×
能效提升
10×
智能密度
模型规格
- 1-Bit Bonsai 8B: 仅需1.15GB内存,为机器人、实时agent和边缘计算设计
- 1-Bit Bonsai 4B: 仅需0.57GB内存,M4 Pro上可达132 tokens/s
- 1-Bit Bonsai 1.7B: 仅需0.24GB内存,iPhone 17 Pro Max上可达130 tokens/s
意义
这是首个商业可行的1-bit权重模型,标志着LLM在端侧部署的重大突破。传统上,LLM需要大量GPU资源,但1-bit量化使得在消费级设备上运行大模型成为可能。
关键创新点:极致的模型压缩同时保持与全精度8B模型相当的基准测试性能。