Streaming Experts: 消费级设备运行万亿参数模型
AI
LLM
MoE
本地部署
Apple MLX
硬件优化
技术突破
核心创新:通过从SSD流式加载专家权重,在有限内存设备上运行超大规模Mixture-of-Experts模型
实现案例
- Qwen3.5-397B-A17B (48GB RAM)
Dan Woods实现,5.5+ tokens/秒
模型大小209GB,量化后120GB - Kimi K2.5 (96GB M2 Max MacBook Pro)
1万亿参数模型,32B活跃权重
@seikixtc 3月24日报告 - Qwen3.5-397B (iPhone)
@anemll实现,0.6 tokens/秒
iOS repo已开源
技术原理
- LLM in a Flash论文:Apple 2023年发表的论文
- MoE优势:每个token只需激活部分专家权重
- 流式加载:从SSD按需加载专家权重到RAM
- 量化技术:2-bit/4-bit量化专家权重
- Autoresearch:持续实验优化性能
核心洞察
"I think this technique has legs."
Simon Willison认为这种技术有发展前景,Dan Woods和他的团队正在通过autoresearch循环持续优化,寻找更多技巧来榨取更多性能。