Streaming Experts: 消费级设备运行万亿参数模型

⭐⭐⭐⭐ 4星来源: Simon Willison Blog

AI LLM MoE 本地部署 Apple MLX 硬件优化

技术突破

            核心创新：通过从SSD流式加载专家权重，在有限内存设备上运行超大规模Mixture-of-Experts模型
        

实现案例

Qwen3.5-397B-A17B (48GB RAM)
Dan Woods实现，5.5+ tokens/秒
模型大小209GB，量化后120GB
Kimi K2.5 (96GB M2 Max MacBook Pro)
1万亿参数模型，32B活跃权重
@seikixtc 3月24日报告
Qwen3.5-397B (iPhone)
@anemll实现，0.6 tokens/秒
iOS repo已开源

技术原理

LLM in a Flash论文：Apple 2023年发表的论文
MoE优势：每个token只需激活部分专家权重
流式加载：从SSD按需加载专家权重到RAM
量化技术：2-bit/4-bit量化专家权重
Autoresearch：持续实验优化性能

核心洞察

"I think this technique has legs."

Simon Willison认为这种技术有发展前景，Dan Woods和他的团队正在通过autoresearch循环持续优化，寻找更多技巧来榨取更多性能。

相关资源