Can AI Agents Build Real Stripe Integrations?

⭐⭐⭐⭐⭐ AI Agents Benchmarking Engineering

Stripe 构建了首个生产级 API 代理开发基准测试,评估 AI 代理能否自主构建完整的 Stripe 集成。

🔬 基准测试设计

  • 11 个多样化环境:模拟真实集成挑战
  • 三种任务类型
    • 后端任务:数据迁移、SDK 升级、API 版本变更
    • 全栈任务:需要浏览器验证的端到端集成
    • Gym 问题集:专注于特定功能深度(如 Checkout、订阅)
  • 评估框架:使用 goose MCP harness + Stripe MCP server

📊 关键发现

模型性能

  • Claude Opus 4.5:全栈任务 92% 平均分(4 项任务)
  • GPT-5.2:Gym 问题集 73% 平均分(2 项任务)
  • 最佳运行平均 63 轮交互

令人惊讶的表现

  • 代理能够导航 UI、调试实时问题、处理未记录的行为
  • 在 "card element to checkout session" 任务中,代理自主使用 Link 完成支付
  • Checkout gym 任务中,代理提供 80%+ 正确参数,并能自检高级配置

⚠️ 模型仍需改进的地方

模糊情况处理不当
在 SDK 升级任务中,一些代理会使用不存在的 Stripe 数据,看到 400 错误后认为任务完成。更好的做法是编写脚本生成测试数据。
  • 浏览器操作卡住:代理在进行表单输入时会高亮 HTML frame,导致后续输入失败
  • 无法自我恢复:遇到错误时过早放弃任务

🎯 实际意义

  • 支付集成需要 100% 准确,大部分正确 = 失败
  • 基准测试帮助构建工具来改进模型与 Stripe 的集成
  • 早期评估还发现并修复了多个文档 bug
  • 基准已在 GitHub 开源:stripe/ai/benchmarks

💡 关键洞见

AI 代理已经能够完成 scoped 编码问题,但与完全自主管理软件工程项目之间存在差距。真实软件工程是长周期活动,需要规划、持久状态管理和故障恢复。