深度学习正在离开"炼金术"时代

2026年4月25日，一篇来自ArXiv的论文提出了"学习力学"（Learning Mechanics）概念。这不是学术圈的自嗨，而是一个重要信号：深度学习正在从"凭感觉调参"走向"靠理论指导"。

从"炼金术"到"科学"

过去十年，深度学习本质上是一门"炼金术"。

工程师知道怎么做有效——堆数据、堆算力、调超参数，但说不清为什么有效。传统统计学习理论解释不了为什么大模型反而泛化更好。参数越多越容易过拟合？这在神经网络身上完全不成立。

这种情况像极了热力学出现之前的物理学。人们知道热现象的规律，能用蒸汽机做功，但不了解热量传递的底层机制。工程跑通了，但理解停留在经验层面。

现在，深度学习走到了相似的临界点。

论文提出的"学习力学"，不关心为什么神经网络能学会——那是学习理论的事。它关心的是：给定架构、给定数据、给定超参数，能否预测训练过程和结果？

这是工程上真正有用的理论。训练一个模型要烧多少GPU、多少电、多少时间，能否提前算出来？理论说可以。

新理论的三个特征值得关注：

第一，关注训练过程的变化。不只是看最终结果对不对，还要看训练曲线怎么走的、什么时候该收敛、为什么有时候会震荡。

第二，关注宏观统计。不需要抠每一个神经元的细节，而是看整体行为——梯度分布、损失曲面、平均激活值这些统计量。

第三，要能定量预测。不能模棱两可地说"这个模型可能表现不错"，而要给出具体数值。

对从业者来说，这意味着一件事：凭经验吃饭的时代正在过去。

以前面试问候选人的是："你调过哪些参数？踩过什么坑？"这些经验确实有价值，但在理论成熟之后，经验的价值会快速贬值。一个读过《学习力学》的工程师，在思路上就比还在凭感觉调参的人领先半步。

更实际的影响是试错成本下降。训练一个大模型要花几百万美元，如果能用理论提前预估结果，就可以减少无效训练。这对资源有限的团队尤为重要。

当然，理论不会立刻取代工程。就像热力学出现之后，蒸汽机工程师仍然需要实践经验。但行业会慢慢变得理性——调参会从"玄学"变成"计算"，创新会从"试错"变成"推导"。

十七世纪，Bacon说"知识就是力量"。二十一世纪，这句话的新版本可能是：理解就是力量。

深度学习的"炼金术"时代持续了十年。现在门正在关上。或者说，科学正在进场。

---

本文涉及论文：There Will Be a Scientific Theory of Deep Learning (ArXiv 2026)