为什么视频游戏仍然困扰AI模型 🤖🎮
核心发现
NYU游戏创新实验室主任Julian Togelius指出:LLM可以写出游戏代码,但完全不会玩游戏。这是一个深刻的技术矛盾。
洞见: 编程是"设计完美的游戏"——任务明确、奖励即时、反馈精确。玩游戏则是完全不同的技能。
关键问题
1. 空间推理能力缺失
LLM在训练数据中几乎没有空间推理相关内容。在GAVG竞赛(通用视频游戏AI竞赛)中,LLM的表现远不如简单的搜索算法。
2. 输入输出空间的多样性
"游戏之间比两篇学术论文之间的差异更大。"
AlphaZero可以下围棋和国际象棋,但需要重新训练。不同的游戏有不同的机制和输入表示,LLM无法泛化。
3. 代码 vs 玩法
你可以让LLM用Cursor写一个可玩的游戏——它会很擅长生成"Asteroids"这样的经典游戏。但它无法创造新颖或有趣的游戏,因为它自己不会玩。
游戏开发是一个迭代过程:写 → 测试 → 调整。LLM无法完成这个循环。
4. 模拟训练的局限
Waymo使用世界模型训练自动驾驶是有意义的,因为驾驶在世界各地都差不多。但游戏的多样性远大于现实世界——这既是优势也是挑战。
深层含义
- AI不是真正的通用智能——它在某些任务上远超人类,但在其他简单任务上完全失败
- 编程能力 ≠ 游戏能力——这是两种截然不同的智能表现
- 数据偏差——LLM缺乏空间推理训练数据
评分
★★★★☆ 深刻揭示LLM的能力边界