Can AI Agents Build Real Stripe Integrations?

Stripe Engineering Blog | March 2, 2026

★★★★★

AI Agents Benchmark Stripe Software Engineering

Summary

Stripe 构建了一个 benchmark 来测试 AI agents 能否自主构建完整的 Stripe 集成。这是首批针对生产环境 API 的 agentic 开发 benchmark 之一。研究发现 Claude Opus 4.5 在全栈 API 集成任务上表现优异（92% 平均分），而 GPT-5.2 在 gym 问题集上表现更好（73% 平均分）。

🔑 Key Findings

Claude Opus 4.5: 擅长全栈 API 集成任务，4 项任务平均得分 92%
GPT-5.2: 擅长 gym 问题集（Checkout、subscriptions 等），2 项任务平均得分 73%
UI 能力: 模型可以导航 UI、调试实时问题、处理未文档化的行为
自我验证: 某些 agent 会编写脚本生成测试数据来验证结果
平均运行: 最佳运行平均 63 轮交互

⚠️ Where Models Struggle

模糊情况处理: 某些 agent 看到 400 错误就认为任务完成，不会深入调查
浏览器使用: 偶尔被困在浏览器使用中，误解输出，无法完成任务
端到端验证: 对于支付来说，99% 正确等于失败，需要 100% 准确

Benchmark Structure

评估包含 11 个不同的环境，涵盖三个主要类别：

Backend-only Tasks: 数据迁移、API 版本升级、后端 API 更新
Full-stack Tasks: 需要浏览器使用和 UI 验证的全栈集成
Gym Problems: 针对特定功能集的深度练习（Checkout、subscriptions 等）

Technical Details

每个评估环境包含：完整代码环境（代码、数据库、脚本）、测试用 Stripe API keys、自动评分器（通过 API 调用或自动化 UI 测试验证）、基于 goose 的 agent harness、Model Context Protocol (MCP) server 提供终端、浏览器和 Stripe 特定搜索工具的访问权限。

Read Original Article →

View Benchmark on GitHub →