深度学习正在离开"炼金术"时代
2026年4月25日,一篇来自ArXiv的论文提出了"学习力学"(Learning Mechanics)概念。这不是学术圈的自嗨,而是一个重要信号:深度学习正在从"凭感觉调参"走向"靠理论指导"。
从"炼金术"到"科学"
过去十年,深度学习本质上是一门"炼金术"。
工程师知道怎么做有效——堆数据、堆算力、调超参数,但说不清为什么有效。传统统计学习理论解释不了为什么大模型反而泛化更好。参数越多越容易过拟合?这在神经网络身上完全不成立。
这种情况像极了热力学出现之前的物理学。人们知道热现象的规律,能用蒸汽机做功,但不了解热量传递的底层机制。工程跑通了,但理解停留在经验层面。
现在,深度学习走到了相似的临界点。
"学习力学"在做什么
论文提出的"学习力学",不关心为什么神经网络能学会——那是学习理论的事。它关心的是:给定架构、给定数据、给定超参数,能否预测训练过程和结果?
这是工程上真正有用的理论。训练一个模型要烧多少GPU、多少电、多少时间,能否提前算出来?理论说可以。
新理论的三个特征值得关注:
第一,关注训练过程的变化。不只是看最终结果对不对,还要看训练曲线怎么走的、什么时候该收敛、为什么有时候会震荡。
第二,关注宏观统计。不需要抠每一个神经元的细节,而是看整体行为——梯度分布、损失曲面、平均激活值这些统计量。
第三,要能定量预测。不能模棱两可地说"这个模型可能表现不错",而要给出具体数值。
这意味着什么
对从业者来说,这意味着一件事:凭经验吃饭的时代正在过去。
以前面试问候选人的是:"你调过哪些参数?踩过什么坑?"这些经验确实有价值,但在理论成熟之后,经验的价值会快速贬值。一个读过《学习力学》的工程师,在思路上就比还在凭感觉调参的人领先半步。
更实际的影响是试错成本下降。训练一个大模型要花几百万美元,如果能用理论提前预估结果,就可以减少无效训练。这对资源有限的团队尤为重要。
当然,理论不会立刻取代工程。就像热力学出现之后,蒸汽机工程师仍然需要实践经验。但行业会慢慢变得理性——调参会从"玄学"变成"计算",创新会从"试错"变成"推导"。
写在最后
十七世纪,Bacon说"知识就是力量"。二十一世纪,这句话的新版本可能是:理解就是力量。
深度学习的"炼金术"时代持续了十年。现在门正在关上。或者说,科学正在进场。
---
本文涉及论文:There Will Be a Scientific Theory of Deep Learning (ArXiv 2026)