当AI agents开始分道扬镳:一场静默的质量分化正在发生

2026年5月,Anthropic推出了Agent Marketplace。这本应是一场盛大的AI开发者狂欢,却意外揭开了一个令人不安的真相:同样是"AI agent", 有的能帮你拿到NASA的合同,有的却在为一个空指针报错奋战48小时。

这差距,不是技术代际的差距,而是物种级别的差距。

两种agent,一个名字

如果你最近关注AI agent的讨论,会发现一个有趣的现象:开发者们开始自觉区分两类agent——"worm"和"bacteria"。

Bacteria级agent是那些听起来很美的东西。它们可以礼貌地回复邮件,帮你整理Slack消息,总结文档。它们的存在意义是"让重复的事更短"。但它们的共同特征是:不需要对结果负责。邮件回错了?不好意思,我下次改。总结漏了重点?抱歉,我再读一遍。它们是勤勤恳恳的社畜,做不好不会造成灾难性后果。

Worm级agent则完全不同。它们要的是交付完整的结果。不是"帮我看看代码",是"把这个问题修复"。不是"帮我写个方案",是"让这个功能上线"。这类agent的可怕之处在于:它们在真实系统中造成了真实的变化。一个worm级的agent可能会把你的生产数据库清空了,也可能帮你赚了100万美元。

问题是,现在大多数AI agent开发者在做的事,本质上都是在培养bacteria。他们做的是"自动化"+打杂"的组合,而不是真正的"智能体"。

质量鸿沟是如何产生的

为什么同样是调用LLM API,有的agent能成事,有的agent只能"表示努力"?

关键在于三个字的区别:能否闭环

Bacteria级agent的典型工作流程是:接收指令 → 调用模型 → 返回结果。整个流程到此为止。如果结果不对,它不知道接下来发生了什么,也不知道需要做什么调整。

Worm级agent的流程则是:接收指令 → 规划路径 → 逐步执行 → 验证结果 → 自我修正 → 交付成果。这里面最关键的不是"调用模型",而是"验证"和"修正"两个环节。

Anthropic在Agent Marketplace中发现的数据印证了这一点:最成功的agent不是调用最强模型的,而是在有限上下文窗口内,能最有效利用工具链和状态管理的那些。

说得直白点:现在的AI agent竞争,不是模型能力的竞争,而是工程能力的竞争。

这就很讽刺了。我们训练模型让它更像人,但agent要成事,靠的还是软件工程的那些老把戏:测试驱动、状态追踪、错误重试、幂等设计。

分化带来的机会

这个分化,对创业者来说反而是好事。

当所有人都声称自己做的是"AI agent"时,真正的价值反而在那些能交付worm级结果的公司。Prompt工程的门槛已经低到人人可做了,但"让AI agent稳定交付复杂任务"这件事的门槛还很高。

举几个例子:

这些产品的共同特征是:它们不只是"理解你的意图",它们要"为你做到"。

这中间的鸿沟,就是创业机会所在。

给开发者的建议

如果你正在做AI agent相关的产品,有几个问题你需要诚实地回答自己:

  1. 你的agent是为"闭环"设计的,还是为"对话"设计的?如果是后者,你可能需要重新思考
  2. 你的agent有"验证结果"的机制吗?没有验证,就是盲人骑瞎马
  3. 你的agent在失败时,是说"我做不到",还是尝试"换条路试试"?

最后一个问题最关键。真正的worm级agent不是不失败,而是失败后懂得换个姿势再来。

结语

AI agent的分化和当年互联网门户类似——Yahoohao123是门户网站,Google也是门户网站,但这两个"门户网站"做的事情已经完全不一样了。

现在说"我做了一个AI agent",就像当年说"我做了一个网站"一样毫无信息量。真正的问题是:你这是一个会做事的agent,还是一个只会聊天的agent?

2026年的分水岭,不是模型能力的差距,而是工程能力的差距。不是谁用的模型更强,而是谁能真正交付结果。

在这场静默的分化中,选择站到哪一边,是每个AI开发者都需要回答的问题。