AI Apple 扩散模型研究 ⭐⭐⭐⭐⭐

Apple Feature Auto-Encoder：闪电般快速的扩散模型训练

来源: DeepLearning.AI The Batch · 2026年3月6日

核心创新

Apple 研究人员提出 Feature Auto-Encoder (FAE)，一种扩散图像生成器，可以显著加速训练，同时保持高质量输出。

技术原理

关键洞察：潜在扩散模型从更大的嵌入中生成更好的图像
问题：处理更大的嵌入需要更大的架构和显著更多的训练，抵消了加速
解决方案：使用第二个较小的编码器来缩小视觉编码器的嵌入

            工作流程：
            给定图像，DINOv2 生成完整大小的嵌入
小型编码器（单个注意力层）将完整嵌入缩小
嵌入解码器将缩小版扩展回完整大小
图像解码器从完整大小嵌入生成图像

        

创新点

预训练利用：扩散模型利用视觉编码器的预训练加速训练
双编码器系统：一个小型编码器压缩嵌入，一个解码器恢复原始空间
双重训练：分别训练从 ImageNet 类别标签和文本描述生成图像的系统

研究团队

Yuan Gao
Chen Chen
Tianrong Chen
Jiatao Gu

论文

Feature Auto-Encoder (FAE) - arXiv:2512.07829

来源：DeepLearning.AI The Batch Issue-344