You can't imitation-learn how to continual-learn

4.5★ 优秀

来源: LessWrong (180 points, Curated) | 作者: Steven Byrnes | 日期: 2026-03-16

原始链接: lesswrong.com

核心发现

深度论证为什么LLM无法实现真正的持续学习

作者Steven Byrnes提出一个教育学观点：LLM具有人类学习没有的限制。其中核心论点是：LLM本质上只是imitation learning，无法实现真正的持续学习(continual learning)。

区分"信息"vs"知识"：LLM只能获取信息（information），无法构建新知识（knowledge）
真正的持续学习示例：AlphaZero从随机初始化通过100万场自我对弈成长为专家；人类用20年从新手变成世界专家
LLM只是imitation learning：Transformer的假设空间太窄，无法实现真正的持续学习
Context window无济于事：增加context window不能解决根本问题——没有办法让GPT-2变成GPT-5
Dario Amodei的thought experiment：关于"datacenter中的天才国家"——如果完全密封，给他们100年虚拟现实环境，会发现他们发明了全新的科学和哲学
关键问题：LLM无法理解、批评并建立在全新的、训练数据中不存在的知识体系之上

方式	假设空间
Solomonoff induction模仿学习	所有可计算算法
Transformer模仿学习	所有可能的训练Transformer

如果用一个transformer观察deep Q network从随机初始化开始玩Atari Breakout，玩了100万次越来越好，然后冻结权重用作模仿学习者：

作者明确这不是说"LLM很笨"或"LLM不可能扩展到超级智能"，而是一个狭窄的教育学观点。