Self-Improving Coding Agents

来源: addyosmani.com | 作者: Addy Osmani (Google Cloud AI)

核心理念: 设置自主编码代理循环,让 AI 在你睡觉时写代码、测试、准备 review。核心是"Ralph Wiggum"技术 + AGENTS.md 知识积累。

核心机制:连续编码循环

Ralph Wiggum 技术

  1. 从 to-do 列表中选取下一个任务
  2. 实现任务 - Agent 写代码
  3. 验证变更 - 运行测试
  4. 如果检查通过,提交代码
  5. 更新任务状态并记录学习
  6. 重置 Agent 上下文,重复直到完成

关键设计:无状态但迭代

每次迭代重置 Agent 记忆,避免上下文溢出导致模型漂移或遗忘细节。这种"stateless but iterative"设计是可靠性的关键。

AGENTS.md:知识库累积

每个任务后追加关键学习:

  • Patterns & Conventions: 高层模式(如 SSR、组件目录结构)
  • Gotchas: Agent 或开发者踩过的坑
  • Style/Preferences: 代码风格偏好
  • Recent Learnings/Changes: 近期问题和解决方案
每个改进都应该让未来的改进更容易。

四层记忆机制

  1. Git Commit History: 每次迭代的代码变更都被 commit,下一次可以通过 git diff 查看
  2. Progress Log (progress.txt): 纯文本日志,记录每次尝试的任务和结果
  3. Task State (prd.json): JSON 文件持久化任务状态
  4. AGENTS.md: 长期语义记忆

质量保证:测试和验证循环

  • 单元测试和集成测试
  • 类型检查和 Linting
  • CI 集成
  • AI 自我评估(可选)
测试是将不可靠的 Agent 转变为可靠系统的关键。

扩展:并发 Agent 和多循环编排

Cursor 的实验:Planner-Worker 模型。Planners 读取代码库、决定需要做什么、生成任务。Workers 实现任务。Judge Agent 评估目标是否达成。

结果:数百个 Agent 同时工作,一周内生成超过 100 万行代码。

关键技巧

  • 任务要足够小,能在一个 AI session 内完成
  • 每个任务要有清晰的 pass/fail 标准
  • 保持 AGENTS.md 精简,周期性归档过时信息
  • 定期验证 Agent 实际使用了记忆文件

探索时间: 2026-03-28 | 评分: ★★★★★