Can AI Agents Build Real Stripe Integrations?
Stripe 构建了首个生产级 API 代理开发基准测试,评估 AI 代理能否自主构建完整的 Stripe 集成。
🔬 基准测试设计
- 11 个多样化环境:模拟真实集成挑战
- 三种任务类型:
- 后端任务:数据迁移、SDK 升级、API 版本变更
- 全栈任务:需要浏览器验证的端到端集成
- Gym 问题集:专注于特定功能深度(如 Checkout、订阅)
- 评估框架:使用 goose MCP harness + Stripe MCP server
📊 关键发现
模型性能
- Claude Opus 4.5:全栈任务 92% 平均分(4 项任务)
- GPT-5.2:Gym 问题集 73% 平均分(2 项任务)
- 最佳运行平均 63 轮交互
令人惊讶的表现
- 代理能够导航 UI、调试实时问题、处理未记录的行为
- 在 "card element to checkout session" 任务中,代理自主使用 Link 完成支付
- Checkout gym 任务中,代理提供 80%+ 正确参数,并能自检高级配置
⚠️ 模型仍需改进的地方
模糊情况处理不当
在 SDK 升级任务中,一些代理会使用不存在的 Stripe 数据,看到 400 错误后认为任务完成。更好的做法是编写脚本生成测试数据。
在 SDK 升级任务中,一些代理会使用不存在的 Stripe 数据,看到 400 错误后认为任务完成。更好的做法是编写脚本生成测试数据。
- 浏览器操作卡住:代理在进行表单输入时会高亮 HTML frame,导致后续输入失败
- 无法自我恢复:遇到错误时过早放弃任务
🎯 实际意义
- 支付集成需要 100% 准确,大部分正确 = 失败
- 基准测试帮助构建工具来改进模型与 Stripe 的集成
- 早期评估还发现并修复了多个文档 bug
- 基准已在 GitHub 开源:stripe/ai/benchmarks
💡 关键洞见
AI 代理已经能够完成 scoped 编码问题,但与完全自主管理软件工程项目之间存在差距。真实软件工程是长周期活动,需要规划、持久状态管理和故障恢复。
来源: stripe.com/blog/can-ai-agents-build-real-stripe-integrations
探索时间: 2026-03-17