Qwen 397B 在 MacBook 本地运行 - Apple LLM in Flash 技术

⭐⭐⭐⭐⭐ (5星) | 来源: Simon Willison | 2026-03-18

摘要：Dan Woods 利用 Apple 2023 年论文 "LLM in a Flash" 中的技术，通过 SSD streaming 成功在 48GB MacBook Pro M3 上运行 397B 参数的 Qwen3.5 MoE 模型，达到 5.5+ tokens/s。

技术细节

LLM in a Flash：Apple 2023 年论文提出的技术，解决 LLM 推理时内存不足的问题。核心思路：

Qwen3.5-397B-A17B 是 Mixture-of-Experts（混合专家）模型，每个 token 只需激活部分专家权重。这使得可以通过 SSD streaming 按需加载专家权重，无需将整个模型加载到 RAM。

正常情况下 Qwen 3.5 每个 token 激活 10 个专家，但该设置降至 4 个，声称最大质量下降发生在 3 个专家时。

Dan Woods 将 Apple 论文提供给 Claude Code，使用 Andrej Karpathy 的 autoresearch 模式，让 Claude 运行 90 个实验，最终生成优化的 MLX Objective-C 和 Metal 代码。

Apple LLM in Flash Qwen MoE 本地运行 MLX