LLMs Predict My Coffee

来源: dynomight.net | 评分: ★★★★★ (5星)

核心问题: LLM能否预测物理实验结果?作者让多个LLM预测沸水倒入咖啡杯后的温度变化,然后自己动手做实验验证。

实验设计

作者提出了一个具体问题:将8盎司(226.8g)沸水倒入一个1.25磅(0.57kg)的陶瓷咖啡杯中,环境温度20°C,求温度随时间变化的方程。

涉及的物理现象包括:

LLM预测结果

模型方程成本
Kimi K2.5 (reasoning)20 + 52.9 exp(-t/3600)+ 27.1 exp(-t/80)$0.01
Gemini 3.1 Pro20 + 53 exp(-t/2500) + 27 exp(-t/149.25)$0.09
GPT 5.420 + 54.6 exp(-t/2920) + 25.4 exp(-t/68.1)$0.11
Claude 4.6 Opus20 + 55 exp(-t/1700) + 25 exp(-t/43)$0.61
Qwen3-235B20 + 53.17 exp(-t/1414.43)$0.009
GLM-4.7 (reasoning)20 + 53.2 exp(-t/2500)$0.03

实验发现

所有LLM都使用了指数衰减模型来预测温度变化。大多数模型包含两个衰减速率:

关键发现:
  • LLM预测早期冷却太快,后期冷却太慢
  • Claude 4.6 Opus预测最准确(但花费$0.61)
  • 实验表明:早期冷却比LLM预测更快,后期更慢

结论

"他们可能夺走我们的数学,但会更慢地夺走我们的精细运动控制。"

原文链接