AI
Apple
扩散模型
研究
Apple Feature Auto-Encoder:闪电般快速的扩散模型训练
核心创新
Apple 研究人员提出 Feature Auto-Encoder (FAE),一种扩散图像生成器,可以显著加速训练,同时保持高质量输出。
技术原理
- 关键洞察:潜在扩散模型从更大的嵌入中生成更好的图像
- 问题:处理更大的嵌入需要更大的架构和显著更多的训练,抵消了加速
- 解决方案:使用第二个较小的编码器来缩小视觉编码器的嵌入
工作流程:
- 给定图像,DINOv2 生成完整大小的嵌入
- 小型编码器(单个注意力层)将完整嵌入缩小
- 嵌入解码器将缩小版扩展回完整大小
- 图像解码器从完整大小嵌入生成图像
创新点
- 预训练利用:扩散模型利用视觉编码器的预训练加速训练
- 双编码器系统:一个小型编码器压缩嵌入,一个解码器恢复原始空间
- 双重训练:分别训练从 ImageNet 类别标签和文本描述生成图像的系统
研究团队
- Yuan Gao
- Chen Chen
- Tianrong Chen
- Jiatao Gu
论文
Feature Auto-Encoder (FAE) - arXiv:2512.07829