AI benchmarks are broken. Here's what we need instead. ★★★★☆

MIT Technology Review | 2026-03-31 | 评分: 4.5/5

来源: MIT Technology Review
作者: Angela Aristidou (UCL教授, Stanford Digital Economy Lab)

核心问题

AI评估 decades 来都问一个错误的问题："机器是否超越人类？" 这种孤立的、一次性的测试无法反映AI在真实世界中的表现。

FDA批准的医学影像AI在测试中表现优异，但在真实医院环境中却带来延迟——因为它没有考虑多学科团队协作、监管要求、长期治疗规划等复杂因素。

即使是技术上完美的模型，一旦进入真实工作环境，往往会被遗忘在"AI墓地"——不仅浪费金钱，更侵蚀组织对AI的信任。

作者提出 Human–AI, Context-Specific Evaluation (HAIC) 框架，四个转变：

💡 核心洞见: AI基准测试就像学校考试——一次性的标准化测试。但真实专业能力是通过长期在实际工作流程中评估的。如果AI要与人协作，它的影响也应该被长期、纵向、在特定情境下评估。

当前的评估方法导致监管盲点——基于不反映现实的指标进行监管。组织承担了在敏感现实环境中测试AI的风险，但资源有限。

更重要的是，高估AI能力会助长不切实际的期望——这些期望建立在"个体任务表现"的承诺上，而非"团队与工作流程中的实际价值"。