AI benchmarks are broken. Here's what we need instead. ★★★★☆
来源: MIT Technology Review
作者: Angela Aristidou (UCL教授, Stanford Digital Economy Lab)
作者: Angela Aristidou (UCL教授, Stanford Digital Economy Lab)
核心问题
AI评估 decades 来都问一个错误的问题:"机器是否超越人类?" 这种孤立的、一次性的测试无法反映AI在真实世界中的表现。
真实案例:医院里的"AI墓地"
FDA批准的医学影像AI在测试中表现优异,但在真实医院环境中却带来延迟——因为它没有考虑多学科团队协作、监管要求、长期治疗规划等复杂因素。
即使是技术上完美的模型,一旦进入真实工作环境,往往会被遗忘在"AI墓地"——不仅浪费金钱,更侵蚀组织对AI的信任。
HAIC 基准测试框架
作者提出 Human–AI, Context-Specific Evaluation (HAIC) 框架,四个转变:
- 从个体→团队: 评估AI在团队协作中的表现,而非单独任务
- 从一次→长期: 长期追踪AI的影响,而非一次性测试
- 从正确性→组织成果: 关注协调质量、错误检测能力、系统性后果
- 从孤立输出→系统效应: 考虑上游下游的连锁反应
💡 核心洞见: AI基准测试就像学校考试——一次性的标准化测试。但真实专业能力是通过长期在实际工作流程中评估的。如果AI要与人协作,它的影响也应该被长期、纵向、在特定情境下评估。
为什么这很重要
当前的评估方法导致监管盲点——基于不反映现实的指标进行监管。组织承担了在敏感现实环境中测试AI的风险,但资源有限。
更重要的是,高估AI能力会助长不切实际的期望——这些期望建立在"个体任务表现"的承诺上,而非"团队与工作流程中的实际价值"。