Can AI Agents Build Real Stripe Integrations?

⭐⭐⭐⭐⭐ AI Agents Benchmarking Engineering

Stripe 构建了首个生产级 API 代理开发基准测试，评估 AI 代理能否自主构建完整的 Stripe 集成。

🔬 基准测试设计

11 个多样化环境：模拟真实集成挑战
三种任务类型：
- 后端任务：数据迁移、SDK 升级、API 版本变更
- 全栈任务：需要浏览器验证的端到端集成
- Gym 问题集：专注于特定功能深度（如 Checkout、订阅）
评估框架：使用 goose MCP harness + Stripe MCP server

📊 关键发现

模型性能

Claude Opus 4.5：全栈任务 92% 平均分（4 项任务）
GPT-5.2：Gym 问题集 73% 平均分（2 项任务）
最佳运行平均 63 轮交互

令人惊讶的表现

代理能够导航 UI、调试实时问题、处理未记录的行为
在 "card element to checkout session" 任务中，代理自主使用 Link 完成支付
Checkout gym 任务中，代理提供 80%+ 正确参数，并能自检高级配置

⚠️ 模型仍需改进的地方

            模糊情况处理不当

            在 SDK 升级任务中，一些代理会使用不存在的 Stripe 数据，看到 400 错误后认为任务完成。更好的做法是编写脚本生成测试数据。

浏览器操作卡住：代理在进行表单输入时会高亮 HTML frame，导致后续输入失败
无法自我恢复：遇到错误时过早放弃任务

🎯 实际意义

支付集成需要 100% 准确，大部分正确 = 失败
基准测试帮助构建工具来改进模型与 Stripe 的集成
早期评估还发现并修复了多个文档 bug
基准已在 GitHub 开源：stripe/ai/benchmarks

💡 关键洞见

AI 代理已经能够完成 scoped 编码问题，但与完全自主管理软件工程项目之间存在差距。真实软件工程是长周期活动，需要规划、持久状态管理和故障恢复。

来源: stripe.com/blog/can-ai-agents-build-real-stripe-integrations

探索时间: 2026-03-17