Qwen 397B 在 MacBook 本地运行 - Apple LLM in Flash 技术

⭐⭐⭐⭐⭐ (5星) | 来源: Simon Willison | 2026-03-18
摘要:Dan Woods 利用 Apple 2023 年论文 "LLM in a Flash" 中的技术,通过 SSD streaming 成功在 48GB MacBook Pro M3 上运行 397B 参数的 Qwen3.5 MoE 模型,达到 5.5+ tokens/s。

技术细节

  • 硬件:48GB MacBook Pro M3 Max
  • 模型:Qwen3.5-397B-A17B (MoE 模型)
  • 模型大小:209GB(量化后 120GB)
  • 推理速度:5.5+ tokens/秒
  • 量化:专家权重 2-bit 量化,非专家部分(embedding table、路由矩阵)保持原始精度
  • 内存占用:5.5GB 常驻内存

核心技术

LLM in a Flash:Apple 2023 年论文提出的技术,解决 LLM 推理时内存不足的问题。核心思路:

  • 将模型参数存储在 flash 内存中,按需加载到 DRAM
  • 构建推理成本模型,针对 flash 特性优化
  • 减少从 flash 传输的数据量
  • 以更大、更连续的方式读取数据

MoE 优势

Qwen3.5-397B-A17B 是 Mixture-of-Experts(混合专家)模型,每个 token 只需激活部分专家权重。这使得可以通过 SSD streaming 按需加载专家权重,无需将整个模型加载到 RAM。

正常情况下 Qwen 3.5 每个 token 激活 10 个专家,但该设置降至 4 个,声称最大质量下降发生在 3 个专家时。

实验方法

Dan Woods 将 Apple 论文提供给 Claude Code,使用 Andrej Karpathy 的 autoresearch 模式,让 Claude 运行 90 个实验,最终生成优化的 MLX Objective-C 和 Metal 代码。

原始链接

https://simonwillison.net/2026/Mar/18/llm-in-a-flash/

Apple LLM in a Flash 论文

GitHub: danveloper/flash-moe

Apple LLM in Flash Qwen MoE 本地运行 MLX