The Industrialization of Synthetic Data
核心观点
合成数据曾经是一个相当狭窄的想法:填充小数据集、在不接触生产数据的情况下测试模型、可能为了偏差测试。生成式 AI 和自主 Agent 的兴起改变了这个领域。合成数据现在是一个需要真正基础设施的工程系统。
计算密集型的两个含义
- 每个合成样本的成本上升:因为每个样本更长、更交互式,通常需要多个模型调用
- 生成管道变重:验证、去重、工具执行、沙箱、存储、编排
数据单元变大
- 现代合成数据不再是简单的问答
- 演变为长序列:规划、推理、使用外部工具
- 要求模型展示工作:逐步推理追踪
- 单个高质量训练示例现在跨越数千 tokens 和数十步
一个示例现在需要一组模型
许多管道从每个示例的单一模型调用转移到不同 Agent 的协调工作流:
- 一个 Agent 选择 persona
- 另一个生成内容
- 第三个改进语气
- 乘以数百万示例:总推理调用快速扩展
质量控制成为独立工作负载
- 序列很长,检查不再是简单的最终检查
- 计划开头的微小错误使后续一切成为浪费
- 团队使用第二个 AI 评判第一个 AI 的每一步
- 20 步任务可能需要 50 次独立 AI 操作才能获得一个可用结果
"信任但验证"需要运行代码
- 对于使用工具的 Agent:模型声称完成任务但实际失败是常见失败
- 管道现在包含可执行验证器
- 运行 Python 脚本或检查 API 返回以实时验证
- 计算负担从纯 GPU 推理转移到 CPU、内存、沙箱容量
- 通常需要数千个并行隔离容器来验证生成的数据是否正确
现实主义需要真实工具和环境
- 如果想教 Agent 浏览网页或使用企业软件,不能简单地伪造响应
- 团队越来越多地执行真实工具调用并管理相关速率限制、超时、连接
- "计算机使用"训练成本大幅增加:运行完整虚拟机、浏览器引擎、GUI 渲染
- 这看起来更像运营大规模虚拟桌面舰队,而不是数据脚本
保持数据多样性是重活
- 一旦可以大规模生成数据,瓶颈转向保持数据多样性
- 生产管道生成大量候选项目,然后使用嵌入模型和聚类积极去重
- 需要大规模嵌入运行和大量计算用于最终被丢弃的项目
- 这是构建企业 copilot 的主要障碍
更高保真生成器提高每个样本价格
- 专业领域(如医学成像):简单模拟不再足够
- 生成高分辨率 3D 图像训练诊断 AI 需要比旧方法慢得多的高级模型
- 因为训练循环消耗数据的速度超过单个生成器的产量
- 团队通常必须运行大规模 GPU 池以确保训练过程不会因等待下一批图像而闲置
合成数据变成永远在线的工厂
- 静态数据集对交互 Agent 很快过时
- 现代系统使用持续循环:Agent 与环境交互并在整个训练过程中记录新体验
- 这意味着对计算能力的需求不会在数据收集后就结束
- 它持续贯穿模型的整个生命周期
- 保持训练和生成同步成为主要系统工程挑战
Meta Matrix 架构案例
性能数据:
- 12,000+ 并发任务
- 4 小时生成 20 亿 tokens
- 1,500 并发容器用于真实软件工具验证
技术栈
- 开源栈:SLURM + Ray
- 容器化执行:Apptainer
- 分布式服务:LLM 推理和容器工作负载可独立扩展
推荐的现代 AI 基础设施
数据层:多模态 Lakehouse
- 存储原始媒体以及嵌入和特征
- 为训练和推理作业提供数据
- 避免存储成为让 GPU 等待的瓶颈
计算层:PARK Stack
- Kubernetes:集群基础
- Ray:协调复杂分布式任务
- PyTorch + 前沿模型:生成和训练循环
结论
构建这些数据工厂的好处:
- 改进推理和 Agent 行为
- 提供训练多表数据库模型所需的规模
- 如果做得好,合成数据不再是权宜之计
- 成为更好的业务模型的实际路径:流失、欺诈、预测
🧬 探索于 2026-03-17 | 来源: Gradient Flow