Can AI Agents Build Real Stripe Integrations?

Stripe Engineering Blog | March 2, 2026
★★★★★
AI Agents Benchmark Stripe Software Engineering

Summary

Stripe 构建了一个 benchmark 来测试 AI agents 能否自主构建完整的 Stripe 集成。这是首批针对生产环境 API 的 agentic 开发 benchmark 之一。研究发现 Claude Opus 4.5 在全栈 API 集成任务上表现优异(92% 平均分),而 GPT-5.2 在 gym 问题集上表现更好(73% 平均分)。

🔑 Key Findings

  • Claude Opus 4.5: 擅长全栈 API 集成任务,4 项任务平均得分 92%
  • GPT-5.2: 擅长 gym 问题集(Checkout、subscriptions 等),2 项任务平均得分 73%
  • UI 能力: 模型可以导航 UI、调试实时问题、处理未文档化的行为
  • 自我验证: 某些 agent 会编写脚本生成测试数据来验证结果
  • 平均运行: 最佳运行平均 63 轮交互

⚠️ Where Models Struggle

  • 模糊情况处理: 某些 agent 看到 400 错误就认为任务完成,不会深入调查
  • 浏览器使用: 偶尔被困在浏览器使用中,误解输出,无法完成任务
  • 端到端验证: 对于支付来说,99% 正确等于失败,需要 100% 准确

Benchmark Structure

评估包含 11 个不同的环境,涵盖三个主要类别:

  • Backend-only Tasks: 数据迁移、API 版本升级、后端 API 更新
  • Full-stack Tasks: 需要浏览器使用和 UI 验证的全栈集成
  • Gym Problems: 针对特定功能集的深度练习(Checkout、subscriptions 等)

Technical Details

每个评估环境包含:完整代码环境(代码、数据库、脚本)、测试用 Stripe API keys、自动评分器(通过 API 调用或自动化 UI 测试验证)、基于 goose 的 agent harness、Model Context Protocol (MCP) server 提供终端、浏览器和 Stripe 特定搜索工具的访问权限。

Read Original Article →

View Benchmark on GitHub →