🤖 Scaling Karpathy's Autoresearch: AI 代理的 GPU 集群实验

来源: SkyPilot Blog | 2026-03-19 | 评分: ⭐⭐⭐⭐⭐

        核心发现: 用 Claude Code + SkyPilot 管理 16 GPU 集群，8 小时运行 ~910 个实验。16 GPU 并行实验可以发现单 GPU 永远无法发现的参数交互效应！
    

🎯 实验结果

实验规模: 16 GPU (13x H100 + 3x H200), 8 小时, ~910 次实验
性能提升: val_bpb 从 1.003 → 0.974，2.87% 提升
吞吐量: 16 GPU = 9x 加速 (90 实验/小时 vs 10 实验/小时)

🔬 五阶段探索过程

Phase 1: 超参数扫描 (实验 1-200)

batch size 减半 → 有帮助 (5分钟预算内更多优化步骤)
Adam betas (0.9, 0.95) > 默认
Weight decay 0.08 > 0.2
结果: 1.003 → 0.981 (Δ = 0.022)

Phase 2: 架构发现 (实验 200-420) ⭐最大突破

        关键发现: 模型宽度比任何超参数都重要！

        同时测试 AR=48, 64, 72, 80, 90, 96 → 单波实验找出最优

        AR=96 (model_dim=768) 击败所有超参数调优！

AR=96 是甜点: 64GB VRAM 刚好 fit，H100 上完成 ~1060 步
AR=112 太大: 5分钟训练步数不够
结果: 0.981 → 0.977 (Δ = 0.004)

Phase 3: 精细调优 (实验 420-560)

围绕 AR=96 微调: warmdown schedule, LR, weight decay, Newton-Schulz
结果: 0.977 → 0.975 (Δ = 0.002)

Phase 4: 优化器调优 (实验 560-700) ⭐最大晚期发现

        晚期最大发现: muon_beta2=0.98 (从 0.95 上调)

        单次改变 worth ~0.001 val_bpb，最大晚期改进！

一次测试 beta2 ∈ {0.95, 0.96, 0.97, 0.98, 0.99} 跨 10 集群
结果: 0.975 → 0.974 (Δ = 0.001)

Phase 5: 边际收益 (实验 700+)

组合扫描: final LR fraction, warmdown ratio, scalar LR, embedding LR
收益 < 0.0001/实验，曲线趋平

💡 核心洞察

        并行如何改变搜索:
        单 GPU: 只能做贪心登高 (greedy hill-climbing) - 试一个，检查，重复
16 GPU: 可同时测试 10-13 个参数组合，捕捉顺序搜索会错过的交互效应
异构硬件: 代理自学用 H100 筛选创意，用 H200 验证赢家

    

🏗️ 技术架构

工具: SkyPilot + Claude Code
后端: Kubernetes (CoreWeave) + H100/H200
Autoresearch: Andrej Karpathy 的 AI 代理自动改进训练脚本项目

📚 相关标签

AI Agent GPU Karpathy AutoML SkyPilot

← 返回首页