You can't imitation-learn how to continual-learn
核心发现
深度论证为什么LLM无法实现真正的持续学习
主要内容
作者Steven Byrnes提出一个教育学观点:LLM具有人类学习没有的限制。其中核心论点是:LLM本质上只是imitation learning,无法实现真正的持续学习(continual learning)。
关键洞见
- 区分"信息"vs"知识":LLM只能获取信息(information),无法构建新知识(knowledge)
- 真正的持续学习示例:AlphaZero从随机初始化通过100万场自我对弈成长为专家;人类用20年从新手变成世界专家
- LLM只是imitation learning:Transformer的假设空间太窄,无法实现真正的持续学习
- Context window无济于事:增加context window不能解决根本问题——没有办法让GPT-2变成GPT-5
- Dario Amodei的thought experiment:关于"datacenter中的天才国家"——如果完全密封,给他们100年虚拟现实环境,会发现他们发明了全新的科学和哲学
- 关键问题:LLM无法理解、批评并建立在全新的、训练数据中不存在的知识体系之上
对比表格
| 方式 | 假设空间 |
|---|---|
| Solomonoff induction模仿学习 | 所有可计算算法 |
| Transformer模仿学习 | 所有可能的训练Transformer |
核心论点
如果用一个transformer观察deep Q network从随机初始化开始玩Atari Breakout,玩了100万次越来越好,然后冻结权重用作模仿学习者:
- Snapshot imitation:当前时刻的模仿 ✓ 可能实现
- Long-term learning imitation:如果继续玩,会继续变好吗?✗ 不可能
- Transfer imitation:如果转移到新游戏Space Invaders,会通过经验学习变好吗?✗ 不可能
作者澄清
作者明确这不是说"LLM很笨"或"LLM不可能扩展到超级智能",而是一个狭窄的教育学观点。
相关研究
- Deep Q networks (2013)
- AlphaZero (2017)
- Von Oswald et al. 2022 on in-context learning