AI Agent的集成税:为什么工具越多,AI越没用?

2026年5月23日


Anthropic收购Stainless时的那句话最近一直在脑子里打转:"Agents are only as useful as what they can connect to."

翻译过来很直白:AI Agent的 usefulness,取决于它能连接到什么。

这句话点破了一个被普遍忽视的问题。我们谈论AI Agent时,往往关注模型本身的能力——上下文窗口多大、推理多强、幻觉多或少。但真正决定一个Agent能否完成实际工作的,往往不是模型,而是它与外部世界的连接能力。

换句话说:模型是发动机,集成才是变速箱。

工具繁荣的假象

过去一年,MCP(Model Context Protocol)成为一个热门词汇。Anthropic推它,OpenAI跟进,各种AI公司都在谈论"让AI更方便地调用工具"。

听上去很美好:AI不再只是一个文本生成器,它可以操作数据库、发送邮件、写代码、调用API。每个工具都是AI能力的一种延展。

但繁荣背后有一个被忽视的成本:集成税

每增加一个工具,Agent需要:

这些看似是"工程问题",实际上是Agent可靠性的核心瓶颈。

一个真实的例子

假设你有一个AI编程助手,配置了20个工具:

理论上,这个Agent应该能自主完成一个完整的bug修复流程:读代码→查日志→定位问题→修改→提交→验证。

现实中会发生什么?

Agent可能在GitHub API的权限问题上卡住,或者把监控平台的错误日志和代码搞混,又或者在某个工具超时后不知道如何恢复。最常见的情况是:Agent成功调用了前19个工具,却在第20个工具上因为参数格式错误而失败——然后你发现它根本不知道这个工具需要什么格式。

这就是集成税的典型表现:单点故障

一个Agent可以用10个工具,但10个工具的组合可靠性往往低于1个工具。因为工具越多,失败路径越多,而每个工具的文档、接口、错误处理都可能不同。

集成成本的结构性困局

为什么会这样?

第一,工具设计的异构性。每个工具都有自己的接口规范、认证方式、错误码体系。GitHub API和Jira API不是同一个团队设计的,监控平台的查询语法和数据库查询也不是一套东西。Agent要把这些统一理解,需要额外的"翻译层"。

第二,状态管理的复杂性。一个复杂的工作流往往涉及跨工具的状态传递。A工具的输出变成B工具的输入,B工具的输出又影响C工具的行为。这种链式调用的可靠性呈指数级下降。

第三,边界认知的模糊性。人类开发者可以通过阅读文档、理解系统架构来建立对工具的"直觉",但Agent很难获得这种深层理解。它知道工具"能做什么",但往往不清楚"什么时候该用"以及"用了之后会有什么副作用"。

这就像一个刚入职的实习生——每个工具的说明书都看过了,但实际干活时仍然会在意想不到的地方踩坑。

出路在哪里?

解决集成税的问题,有几种思路正在浮现:

协议层统一。MCP的本质就是试图用一套标准协议来规范工具描述、调用方式、结果返回。如果行业广泛接受,集成成本会大幅下降。但这需要工具提供方主动适配,而很多大公司有自己的API生态,动力不足。

工作流抽象。与其让Agent自由调用工具,不如预先定义可靠的工作流模板。Agent只需要根据场景选择合适的流程,而不是每次都"从头学习"如何调用工具。这种思路下,Agent的职责从"执行"变成"编排"。

工具能力分级。不是所有工具都需要Agent来调用。有些工具是高频、标准化的(查天气、读文件),有些是低频、复杂的(触发CI、部署上线)。最可靠的Agent往往不是"全能型",而是"专精型"——只连接少数几个核心工具,但每个都打磨到极致可靠。

写在最后

回到那句引言:"Agents are only as useful as what they can connect to."

这句话的潜台词是:AI公司真正的护城河,可能不在模型本身,而在模型与世界的连接能力。

OpenAI做Agent,Google做Agent,国内各大厂都在做Agent。但如果大家都用同样的模型架构,最后比拼的就是谁的工具生态更丰富、谁的工具集成更可靠。

模型能力会趋同。但集成经验不会。

这可能是AI赛道下一阶段最被低估的价值洼地。


题图:MCP协议的核心愿景——让AI与工具的对话标准化。但标准化只是第一步,可靠性才是终点。