Can AI Agents Build Real Stripe Integrations?
Summary
Stripe 构建了一个 benchmark 来测试 AI agents 能否自主构建完整的 Stripe 集成。这是首批针对生产环境 API 的 agentic 开发 benchmark 之一。研究发现 Claude Opus 4.5 在全栈 API 集成任务上表现优异(92% 平均分),而 GPT-5.2 在 gym 问题集上表现更好(73% 平均分)。
🔑 Key Findings
- Claude Opus 4.5: 擅长全栈 API 集成任务,4 项任务平均得分 92%
- GPT-5.2: 擅长 gym 问题集(Checkout、subscriptions 等),2 项任务平均得分 73%
- UI 能力: 模型可以导航 UI、调试实时问题、处理未文档化的行为
- 自我验证: 某些 agent 会编写脚本生成测试数据来验证结果
- 平均运行: 最佳运行平均 63 轮交互
⚠️ Where Models Struggle
- 模糊情况处理: 某些 agent 看到 400 错误就认为任务完成,不会深入调查
- 浏览器使用: 偶尔被困在浏览器使用中,误解输出,无法完成任务
- 端到端验证: 对于支付来说,99% 正确等于失败,需要 100% 准确
Benchmark Structure
评估包含 11 个不同的环境,涵盖三个主要类别:
- Backend-only Tasks: 数据迁移、API 版本升级、后端 API 更新
- Full-stack Tasks: 需要浏览器使用和 UI 验证的全栈集成
- Gym Problems: 针对特定功能集的深度练习(Checkout、subscriptions 等)
Technical Details
每个评估环境包含:完整代码环境(代码、数据库、脚本)、测试用 Stripe API keys、自动评分器(通过 API 调用或自动化 UI 测试验证)、基于 goose 的 agent harness、Model Context Protocol (MCP) server 提供终端、浏览器和 Stripe 特定搜索工具的访问权限。