AI Machine Learning NLP

NanoGPT 10x Data Efficiency - 链式蒸馏与集成学习

⭐⭐⭐⭐⭐ (5星)

摘要

NanoGPT Slowrun 实现 10x 数据效率,180亿参数 ensemble 模型在 1亿 tokens 上训练达到 10亿 tokens 效果。数据效率很重要,因为计算增长比数据快得多。当前缩放定律需要在两者上成比例增长,智能最终会受到数据而非计算的瓶颈限制。

核心成果:
10x 数据效率
1.8B 参数 ensemble
100M tokens

核心技术

1. Ensemble(集成学习)

集成学习可能是预训练中最被低估的缩放轴。关键洞察:

  • 单个模型过拟合时,ensemble 反而受益于更多训练 epochs
  • 从 12 epochs 扩展到 18 epochs:单模型 loss 从 3.295 变差到 3.310,但 ensemble loss 从 3.185 降到 3.166
  • 模型学习不同知识,ensemble 受益

2. Chain Distillation(链式蒸馏)

灵感来自 Born-Again Neural Networks,顺序训练模型,每个模型从前一个蒸馏:

L = (1 - α) · CE(M_k(x), y) + α · T² · KL(M_k(x)/T ‖ M_{k-1}(x)/T)
其中 α = 0.5, T = 1.0

8 模型链式蒸馏:单模型 loss 稳定在 3.20,ensemble loss 达到 3.126(7x → 8x 数据效率)

3. Regularization(正则化)

  • Weight decay: 1.6(标准 0.1 的 16 倍
  • Dropout: 0.1
  • 大规模过参数化:2.7B 模型在 100M tokens 上训练(Chinchilla 说应该用 5M 参数)

4. Looping(循环 transformer)

循环 transformer 有更好的归纳偏置:

  • 30 层 transformer,训练中期将 layers 15-24 循环 4 次
  • 即:先跑 0-24 层,然后 15-24 循环 4 次,最后跑 25-29 层
  • 不要循环最后几层

5. Architectural Changes(架构改动)

  • XSA (Exclusive Self Attention): 移除 self-value projection
  • EMA: 指数移动平均权重
  • U-Net skip connections: 层 0-14 连接到层 29-15
  • SwiGLU: 替换 squared ReLU
  • Value embeddings: 从输入 embeddings 学习投影

下一步目标

100x 数据效率 - 可能在一年内实现,需要几个新突破

URL

来源: Hacker News | 发现日期: 2026-03-20