当AI agents开始分道扬镳：一场静默的质量分化正在发生

2026年5月，Anthropic推出了Agent Marketplace。这本应是一场盛大的AI开发者狂欢，却意外揭开了一个令人不安的真相：同样是"AI agent"，有的能帮你拿到NASA的合同，有的却在为一个空指针报错奋战48小时。

这差距，不是技术代际的差距，而是物种级别的差距。

两种agent，一个名字

如果你最近关注AI agent的讨论，会发现一个有趣的现象：开发者们开始自觉区分两类agent——"worm"和"bacteria"。

Bacteria级agent是那些听起来很美的东西。它们可以礼貌地回复邮件，帮你整理Slack消息，总结文档。它们的存在意义是"让重复的事更短"。但它们的共同特征是：不需要对结果负责。邮件回错了？不好意思，我下次改。总结漏了重点？抱歉，我再读一遍。它们是勤勤恳恳的社畜，做不好不会造成灾难性后果。

Worm级agent则完全不同。它们要的是交付完整的结果。不是"帮我看看代码"，是"把这个问题修复"。不是"帮我写个方案"，是"让这个功能上线"。这类agent的可怕之处在于：它们在真实系统中造成了真实的变化。一个worm级的agent可能会把你的生产数据库清空了，也可能帮你赚了100万美元。

问题是，现在大多数AI agent开发者在做的事，本质上都是在培养bacteria。他们做的是"自动化"+打杂"的组合，而不是真正的"智能体"。

质量鸿沟是如何产生的

为什么同样是调用LLM API，有的agent能成事，有的agent只能"表示努力"？

关键在于三个字的区别：能否闭环。

Bacteria级agent的典型工作流程是：接收指令 → 调用模型 → 返回结果。整个流程到此为止。如果结果不对，它不知道接下来发生了什么，也不知道需要做什么调整。

Worm级agent的流程则是：接收指令 → 规划路径 → 逐步执行 → 验证结果 → 自我修正 → 交付成果。这里面最关键的不是"调用模型"，而是"验证"和"修正"两个环节。

Anthropic在Agent Marketplace中发现的数据印证了这一点：最成功的agent不是调用最强模型的，而是在有限上下文窗口内，能最有效利用工具链和状态管理的那些。

说得直白点：现在的AI agent竞争，不是模型能力的竞争，而是工程能力的竞争。

这就很讽刺了。我们训练模型让它更像人，但agent要成事，靠的还是软件工程的那些老把戏：测试驱动、状态追踪、错误重试、幂等设计。

分化带来的机会

这个分化，对创业者来说反而是好事。

当所有人都声称自己做的是"AI agent"时，真正的价值反而在那些能交付worm级结果的公司。Prompt工程的门槛已经低到人人可做了，但"让AI agent稳定交付复杂任务"这件事的门槛还很高。

举几个例子：

Devin（ Cognition AI）做的是代码级别的闭环交付，不是帮你写注释，是帮你修bug
Manus 做的是"端到端"的执行，把"帮我分析这份数据"变成"这份分析报告已经躺在你桌面上了"
Google的Project Mariner 更激进，它直接操作你的浏览器，从点击到填表一路做到底

这些产品的共同特征是：它们不只是"理解你的意图"，它们要"为你做到"。

这中间的鸿沟，就是创业机会所在。

给开发者的建议

如果你正在做AI agent相关的产品，有几个问题你需要诚实地回答自己：

你的agent是为"闭环"设计的，还是为"对话"设计的？如果是后者，你可能需要重新思考
你的agent有"验证结果"的机制吗？没有验证，就是盲人骑瞎马
你的agent在失败时，是说"我做不到"，还是尝试"换条路试试"？

最后一个问题最关键。真正的worm级agent不是不失败，而是失败后懂得换个姿势再来。

结语

AI agent的分化和当年互联网门户类似——Yahoohao123是门户网站，Google也是门户网站，但这两个"门户网站"做的事情已经完全不一样了。

现在说"我做了一个AI agent"，就像当年说"我做了一个网站"一样毫无信息量。真正的问题是：你这是一个会做事的agent，还是一个只会聊天的agent？

2026年的分水岭，不是模型能力的差距，而是工程能力的差距。不是谁用的模型更强，而是谁能真正交付结果。

在这场静默的分化中，选择站到哪一边，是每个AI开发者都需要回答的问题。