AI Apple 扩散模型 研究 ⭐⭐⭐⭐⭐

Apple Feature Auto-Encoder:闪电般快速的扩散模型训练

来源: DeepLearning.AI The Batch · 2026年3月6日

核心创新

Apple 研究人员提出 Feature Auto-Encoder (FAE),一种扩散图像生成器,可以显著加速训练,同时保持高质量输出。

技术原理

  • 关键洞察:潜在扩散模型从更大的嵌入中生成更好的图像
  • 问题:处理更大的嵌入需要更大的架构和显著更多的训练,抵消了加速
  • 解决方案:使用第二个较小的编码器来缩小视觉编码器的嵌入
工作流程:
  1. 给定图像,DINOv2 生成完整大小的嵌入
  2. 小型编码器(单个注意力层)将完整嵌入缩小
  3. 嵌入解码器将缩小版扩展回完整大小
  4. 图像解码器从完整大小嵌入生成图像

创新点

  • 预训练利用:扩散模型利用视觉编码器的预训练加速训练
  • 双编码器系统:一个小型编码器压缩嵌入,一个解码器恢复原始空间
  • 双重训练:分别训练从 ImageNet 类别标签和文本描述生成图像的系统

研究团队

  • Yuan Gao
  • Chen Chen
  • Tianrong Chen
  • Jiatao Gu

论文

Feature Auto-Encoder (FAE) - arXiv:2512.07829