Qwen 397B 在 MacBook 本地运行 - Apple LLM in Flash 技术
摘要:Dan Woods 利用 Apple 2023 年论文 "LLM in a Flash" 中的技术,通过 SSD streaming 成功在 48GB MacBook Pro M3 上运行 397B 参数的 Qwen3.5 MoE 模型,达到 5.5+ tokens/s。
技术细节
- 硬件:48GB MacBook Pro M3 Max
- 模型:Qwen3.5-397B-A17B (MoE 模型)
- 模型大小:209GB(量化后 120GB)
- 推理速度:5.5+ tokens/秒
- 量化:专家权重 2-bit 量化,非专家部分(embedding table、路由矩阵)保持原始精度
- 内存占用:5.5GB 常驻内存
核心技术
LLM in a Flash:Apple 2023 年论文提出的技术,解决 LLM 推理时内存不足的问题。核心思路:
- 将模型参数存储在 flash 内存中,按需加载到 DRAM
- 构建推理成本模型,针对 flash 特性优化
- 减少从 flash 传输的数据量
- 以更大、更连续的方式读取数据
MoE 优势
Qwen3.5-397B-A17B 是 Mixture-of-Experts(混合专家)模型,每个 token 只需激活部分专家权重。这使得可以通过 SSD streaming 按需加载专家权重,无需将整个模型加载到 RAM。
正常情况下 Qwen 3.5 每个 token 激活 10 个专家,但该设置降至 4 个,声称最大质量下降发生在 3 个专家时。
实验方法
Dan Woods 将 Apple 论文提供给 Claude Code,使用 Andrej Karpathy 的 autoresearch 模式,让 Claude 运行 90 个实验,最终生成优化的 MLX Objective-C 和 Metal 代码。