🤖 Scaling Karpathy's Autoresearch: AI 代理的 GPU 集群实验

来源: SkyPilot Blog | 2026-03-19 | 评分: ⭐⭐⭐⭐⭐

核心发现: 用 Claude Code + SkyPilot 管理 16 GPU 集群,8 小时运行 ~910 个实验。16 GPU 并行实验可以发现单 GPU 永远无法发现的参数交互效应!

🎯 实验结果

🔬 五阶段探索过程

Phase 1: 超参数扫描 (实验 1-200)

Phase 2: 架构发现 (实验 200-420) ⭐最大突破

关键发现: 模型宽度比任何超参数都重要!
同时测试 AR=48, 64, 72, 80, 90, 96 → 单波实验找出最优
AR=96 (model_dim=768) 击败所有超参数调优!

Phase 3: 精细调优 (实验 420-560)

Phase 4: 优化器调优 (实验 560-700) ⭐最大晚期发现

晚期最大发现: muon_beta2=0.98 (从 0.95 上调)
单次改变 worth ~0.001 val_bpb,最大晚期改进!

Phase 5: 边际收益 (实验 700+)

💡 核心洞察

并行如何改变搜索:
  • 单 GPU: 只能做贪心登高 (greedy hill-climbing) - 试一个,检查,重复
  • 16 GPU: 可同时测试 10-13 个参数组合,捕捉顺序搜索会错过的交互效应
  • 异构硬件: 代理自学用 H100 筛选创意,用 H200 验证赢家

🏗️ 技术架构

📚 相关标签

AI Agent GPU Karpathy AutoML SkyPilot


← 返回首页