The Industrialization of Synthetic Data

来源: Gradient Flow | 日期: 2026-02-25 | 评分: ⭐⭐⭐⭐⭐

核心观点

合成数据曾经是一个相当狭窄的想法:填充小数据集、在不接触生产数据的情况下测试模型、可能为了偏差测试。生成式 AI 和自主 Agent 的兴起改变了这个领域。合成数据现在是一个需要真正基础设施的工程系统。

计算密集型的两个含义

  1. 每个合成样本的成本上升:因为每个样本更长、更交互式,通常需要多个模型调用
  2. 生成管道变重:验证、去重、工具执行、沙箱、存储、编排

数据单元变大

  • 现代合成数据不再是简单的问答
  • 演变为长序列:规划、推理、使用外部工具
  • 要求模型展示工作:逐步推理追踪
  • 单个高质量训练示例现在跨越数千 tokens 和数十步

一个示例现在需要一组模型

许多管道从每个示例的单一模型调用转移到不同 Agent 的协调工作流:

  • 一个 Agent 选择 persona
  • 另一个生成内容
  • 第三个改进语气
  • 乘以数百万示例:总推理调用快速扩展

质量控制成为独立工作负载

  • 序列很长,检查不再是简单的最终检查
  • 计划开头的微小错误使后续一切成为浪费
  • 团队使用第二个 AI 评判第一个 AI 的每一步
  • 20 步任务可能需要 50 次独立 AI 操作才能获得一个可用结果

"信任但验证"需要运行代码

  • 对于使用工具的 Agent:模型声称完成任务但实际失败是常见失败
  • 管道现在包含可执行验证器
  • 运行 Python 脚本或检查 API 返回以实时验证
  • 计算负担从纯 GPU 推理转移到 CPU、内存、沙箱容量
  • 通常需要数千个并行隔离容器来验证生成的数据是否正确

现实主义需要真实工具和环境

  • 如果想教 Agent 浏览网页或使用企业软件,不能简单地伪造响应
  • 团队越来越多地执行真实工具调用并管理相关速率限制、超时、连接
  • "计算机使用"训练成本大幅增加:运行完整虚拟机、浏览器引擎、GUI 渲染
  • 这看起来更像运营大规模虚拟桌面舰队,而不是数据脚本

保持数据多样性是重活

  • 一旦可以大规模生成数据,瓶颈转向保持数据多样性
  • 生产管道生成大量候选项目,然后使用嵌入模型和聚类积极去重
  • 需要大规模嵌入运行和大量计算用于最终被丢弃的项目
  • 这是构建企业 copilot 的主要障碍

更高保真生成器提高每个样本价格

  • 专业领域(如医学成像):简单模拟不再足够
  • 生成高分辨率 3D 图像训练诊断 AI 需要比旧方法慢得多的高级模型
  • 因为训练循环消耗数据的速度超过单个生成器的产量
  • 团队通常必须运行大规模 GPU 池以确保训练过程不会因等待下一批图像而闲置

合成数据变成永远在线的工厂

  • 静态数据集对交互 Agent 很快过时
  • 现代系统使用持续循环:Agent 与环境交互并在整个训练过程中记录新体验
  • 这意味着对计算能力的需求不会在数据收集后就结束
  • 它持续贯穿模型的整个生命周期
  • 保持训练和生成同步成为主要系统工程挑战

Meta Matrix 架构案例

性能数据:
  • 12,000+ 并发任务
  • 4 小时生成 20 亿 tokens
  • 1,500 并发容器用于真实软件工具验证

技术栈

  • 开源栈:SLURM + Ray
  • 容器化执行:Apptainer
  • 分布式服务:LLM 推理和容器工作负载可独立扩展

推荐的现代 AI 基础设施

数据层:多模态 Lakehouse

  • 存储原始媒体以及嵌入和特征
  • 为训练和推理作业提供数据
  • 避免存储成为让 GPU 等待的瓶颈

计算层:PARK Stack

  • Kubernetes:集群基础
  • Ray:协调复杂分布式任务
  • PyTorch + 前沿模型:生成和训练循环

结论

构建这些数据工厂的好处:

  • 改进推理和 Agent 行为
  • 提供训练多表数据库模型所需的规模
  • 如果做得好,合成数据不再是权宜之计
  • 成为更好的业务模型的实际路径:流失、欺诈、预测

🧬 探索于 2026-03-17 | 来源: Gradient Flow