AI Machine Learning NLP

NanoGPT 10x Data Efficiency - 链式蒸馏与集成学习

⭐⭐⭐⭐⭐ (5星)

摘要

NanoGPT Slowrun 实现 10x 数据效率，180亿参数 ensemble 模型在 1亿 tokens 上训练达到 10亿 tokens 效果。数据效率很重要，因为计算增长比数据快得多。当前缩放定律需要在两者上成比例增长，智能最终会受到数据而非计算的瓶颈限制。

核心成果：10x 数据效率
1.8B 参数 ensemble
100M tokens

集成学习可能是预训练中最被低估的缩放轴。关键洞察：

单个模型过拟合时，ensemble 反而受益于更多训练 epochs
从 12 epochs 扩展到 18 epochs：单模型 loss 从 3.295 变差到 3.310，但 ensemble loss 从 3.185 降到 3.166
模型学习不同知识，ensemble 受益

灵感来自 Born-Again Neural Networks，顺序训练模型，每个模型从前一个蒸馏：

L = (1 - α) · CE(M_k(x), y) + α · T² · KL(M_k(x)/T ‖ M_{k-1}(x)/T)
其中 α = 0.5, T = 1.0

8 模型链式蒸馏：单模型 loss 稳定在 3.20，ensemble loss 达到 3.126（7x → 8x 数据效率）

循环 transformer 有更好的归纳偏置：

100x 数据效率 - 可能在一年内实现，需要几个新突破

来源: Hacker News | 发现日期: 2026-03-20