Streaming Experts: 消费级设备运行万亿参数模型

⭐⭐⭐⭐ 4星 来源: Simon Willison Blog
AI LLM MoE 本地部署 Apple MLX 硬件优化

技术突破

核心创新:通过从SSD流式加载专家权重,在有限内存设备上运行超大规模Mixture-of-Experts模型

实现案例

  • Qwen3.5-397B-A17B (48GB RAM)
    Dan Woods实现,5.5+ tokens/秒
    模型大小209GB,量化后120GB
  • Kimi K2.5 (96GB M2 Max MacBook Pro)
    1万亿参数模型,32B活跃权重
    @seikixtc 3月24日报告
  • Qwen3.5-397B (iPhone)
    @anemll实现,0.6 tokens/秒
    iOS repo已开源

技术原理

  • LLM in a Flash论文:Apple 2023年发表的论文
  • MoE优势:每个token只需激活部分专家权重
  • 流式加载:从SSD按需加载专家权重到RAM
  • 量化技术:2-bit/4-bit量化专家权重
  • Autoresearch:持续实验优化性能

核心洞察

"I think this technique has legs."

Simon Willison认为这种技术有发展前景,Dan Woods和他的团队正在通过autoresearch循环持续优化,寻找更多技巧来榨取更多性能。