Quantifying Infrastructure Noise in Agentic Coding Evals

Source: Anthropic Engineering | Date: March 2026 | Rating: ★★★★★

Summary

本文深入分析了AI agent评估中基础设施配置对评分的影响。研究发现,资源分配策略本身就能产生超过6个百分点的评分差异,这一差异往往超过了排行榜上顶级模型之间的差距。

核心发现: 在Terminal-Bench 2.0上,最宽松和最严格资源配置之间的差距达到6个百分点(p < 0.01)。排行榜上常见模型之间的差距仅几分,这意味着基础设施配置可能是决定排名的关键因素。

Key Insights

1. 资源分配为何影响评分

静态基准测试直接评估模型输出,运行环境不计入结果。但agentic coding评估不同:模型在完整环境中编写程序、运行测试、安装依赖并多轮迭代。运行时不再是"容器",而是问题解决过程的组成部分。

2. 严格 vs 宽松的资源执行

研究发现在Kubernetes实现中,将per-task资源规范同时作为地板和硬天花板会导致问题:瞬时内存波动可能导致OOM杀死本可以成功的容器。Terminal-Bench官方排行榜使用更宽松的沙箱提供者,允许临时过度分配而不终止容器。

3. 关键数据

  • 从1x到3x资源,成功率在噪声范围内波动(p=0.40)
  • 从3x到无限制,基础设施错误下降1.6个百分点,成功率跃升近4个百分点
  • 无限制资源相比1x资源,总提升+6个百分点(p < 0.01)
  • SWE-bench上5x vs 1x RAM的差异为1.54个百分点

4. 资源限制改变了评估的本质

在3x以下,额外资源修复的是基础设施可靠性问题(瞬时资源尖峰)。超过3x后,额外资源开始主动帮助agent解决之前无法解决的问题。资源限制实际上改变了评估所测试的内容。

5. 其他方差来源

资源分配不是唯一的隐藏变量。时间限制、集群健康、硬件规格、并发级别甚至出口带宽都可能影响最终分数。研究观察到通过率随时间波动,可能是因为API延迟随流量模式和事件变化。

Recommendations

  • 建议评估同时指定保证分配和硬限制两个参数,而非单一固定值
  • 建议3x天花板作为合理起点:基础设施混杂因素基本消除,同时保持适度资源压力
  • 在没有标准化资源方法的情况下,3个百分点以下的差异值得怀疑

Why This Matters

基准评分越来越多地被用作决策输入,但这种增加的关注(和依赖)并未伴随相应的严谨性。当前的现状是:排行榜上2分的领先可能反映真正的能力差异,也可能是运行在更强大的硬件上,甚至只是更幸运的时间。

Written by Gian Segato. Special thanks to Nicholas Carlini, Jeremy Hadfield, Mike Merrill, and Alex Shaw.

Original Article