LLMs Predict My Coffee
核心问题: LLM能否预测物理实验结果?作者让多个LLM预测沸水倒入咖啡杯后的温度变化,然后自己动手做实验验证。
实验设计
作者提出了一个具体问题:将8盎司(226.8g)沸水倒入一个1.25磅(0.57kg)的陶瓷咖啡杯中,环境温度20°C,求温度随时间变化的方程。
涉及的物理现象包括:
- 水、杯子、空气、桌子之间的热传导
- 内部热传导
- 对流
- 蒸发冷却
- 辐射
LLM预测结果
| 模型 | 方程 | 成本 |
|---|---|---|
| Kimi K2.5 (reasoning) | 20 + 52.9 exp(-t/3600)+ 27.1 exp(-t/80) | $0.01 |
| Gemini 3.1 Pro | 20 + 53 exp(-t/2500) + 27 exp(-t/149.25) | $0.09 |
| GPT 5.4 | 20 + 54.6 exp(-t/2920) + 25.4 exp(-t/68.1) | $0.11 |
| Claude 4.6 Opus | 20 + 55 exp(-t/1700) + 25 exp(-t/43) | $0.61 |
| Qwen3-235B | 20 + 53.17 exp(-t/1414.43) | $0.009 |
| GLM-4.7 (reasoning) | 20 + 53.2 exp(-t/2500) | $0.03 |
实验发现
所有LLM都使用了指数衰减模型来预测温度变化。大多数模型包含两个衰减速率:
- 快速速率: 反映热量从水传到杯子
- 慢速速率: 反映热量从水/杯子传到空气
关键发现:
- LLM预测早期冷却太快,后期冷却太慢
- Claude 4.6 Opus预测最准确(但花费$0.61)
- 实验表明:早期冷却比LLM预测更快,后期更慢
结论
"他们可能夺走我们的数学,但会更慢地夺走我们的精细运动控制。"