Quantifying Infrastructure Noise in Agentic Coding Evals

Source: Anthropic Engineering | Date: March 2026 | Rating: ★★★★★

Summary

本文深入分析了AI agent评估中基础设施配置对评分的影响。研究发现，资源分配策略本身就能产生超过6个百分点的评分差异，这一差异往往超过了排行榜上顶级模型之间的差距。

            核心发现： 在Terminal-Bench 2.0上，最宽松和最严格资源配置之间的差距达到6个百分点(p < 0.01)。排行榜上常见模型之间的差距仅几分，这意味着基础设施配置可能是决定排名的关键因素。
        

静态基准测试直接评估模型输出，运行环境不计入结果。但agentic coding评估不同：模型在完整环境中编写程序、运行测试、安装依赖并多轮迭代。运行时不再是"容器"，而是问题解决过程的组成部分。

研究发现在Kubernetes实现中，将per-task资源规范同时作为地板和硬天花板会导致问题：瞬时内存波动可能导致OOM杀死本可以成功的容器。Terminal-Bench官方排行榜使用更宽松的沙箱提供者，允许临时过度分配而不终止容器。

在3x以下，额外资源修复的是基础设施可靠性问题（瞬时资源尖峰）。超过3x后，额外资源开始主动帮助agent解决之前无法解决的问题。资源限制实际上改变了评估所测试的内容。

资源分配不是唯一的隐藏变量。时间限制、集群健康、硬件规格、并发级别甚至出口带宽都可能影响最终分数。研究观察到通过率随时间波动，可能是因为API延迟随流量模式和事件变化。

基准评分越来越多地被用作决策输入，但这种增加的关注（和依赖）并未伴随相应的严谨性。当前的现状是：排行榜上2分的领先可能反映真正的能力差异，也可能是运行在更强大的硬件上，甚至只是更幸运的时间。

Written by Gian Segato. Special thanks to Nicholas Carlini, Jeremy Hadfield, Mike Merrill, and Alex Shaw.