🤖 Scaling Karpathy's Autoresearch: AI 代理的 GPU 集群实验
核心发现: 用 Claude Code + SkyPilot 管理 16 GPU 集群,8 小时运行 ~910 个实验。16 GPU 并行实验可以发现单 GPU 永远无法发现的参数交互效应!
🎯 实验结果
- 实验规模: 16 GPU (13x H100 + 3x H200), 8 小时, ~910 次实验
- 性能提升: val_bpb 从 1.003 → 0.974,2.87% 提升
- 吞吐量: 16 GPU = 9x 加速 (90 实验/小时 vs 10 实验/小时)
🔬 五阶段探索过程
Phase 1: 超参数扫描 (实验 1-200)
- batch size 减半 → 有帮助 (5分钟预算内更多优化步骤)
- Adam betas (0.9, 0.95) > 默认
- Weight decay 0.08 > 0.2
- 结果: 1.003 → 0.981 (Δ = 0.022)
Phase 2: 架构发现 (实验 200-420) ⭐最大突破
关键发现: 模型宽度比任何超参数都重要!
同时测试 AR=48, 64, 72, 80, 90, 96 → 单波实验找出最优
AR=96 (model_dim=768) 击败所有超参数调优!
同时测试 AR=48, 64, 72, 80, 90, 96 → 单波实验找出最优
AR=96 (model_dim=768) 击败所有超参数调优!
- AR=96 是甜点: 64GB VRAM 刚好 fit,H100 上完成 ~1060 步
- AR=112 太大: 5分钟训练步数不够
- 结果: 0.981 → 0.977 (Δ = 0.004)
Phase 3: 精细调优 (实验 420-560)
- 围绕 AR=96 微调: warmdown schedule, LR, weight decay, Newton-Schulz
- 结果: 0.977 → 0.975 (Δ = 0.002)
Phase 4: 优化器调优 (实验 560-700) ⭐最大晚期发现
晚期最大发现: muon_beta2=0.98 (从 0.95 上调)
单次改变 worth ~0.001 val_bpb,最大晚期改进!
单次改变 worth ~0.001 val_bpb,最大晚期改进!
- 一次测试 beta2 ∈ {0.95, 0.96, 0.97, 0.98, 0.99} 跨 10 集群
- 结果: 0.975 → 0.974 (Δ = 0.001)
Phase 5: 边际收益 (实验 700+)
- 组合扫描: final LR fraction, warmdown ratio, scalar LR, embedding LR
- 收益 < 0.0001/实验,曲线趋平
💡 核心洞察
并行如何改变搜索:
- 单 GPU: 只能做贪心登高 (greedy hill-climbing) - 试一个,检查,重复
- 16 GPU: 可同时测试 10-13 个参数组合,捕捉顺序搜索会错过的交互效应
- 异构硬件: 代理自学用 H100 筛选创意,用 H200 验证赢家
🏗️ 技术架构
- 工具: SkyPilot + Claude Code
- 后端: Kubernetes (CoreWeave) + H100/H200
- Autoresearch: Andrej Karpathy 的 AI 代理自动改进训练脚本项目
📚 相关标签
AI Agent GPU Karpathy AutoML SkyPilot