MoE Transformer 深度学习 Hugging Face

Transformer 中的 Mixture of Experts:深度技术解析

★★★★★ 5星 | 来源: Hugging Face Blog | 日期: 2026-03-16

核心概念:MoE 在保持 Transformer 主干的同时,将某些密集前馈层替换为一组专家。每个 token 由路由器选择少量专家处理,实现"稀疏激活"。

为什么选择 MoE?

关键架构组件

1. 专家路由机制

不同 token 根据其隐藏表示激活不同专家。模型容量取决于总参数,但推理速度取决于活跃参数。

2. Transformers v5 重量加载优化

版本策略加载模式时间
v4.57.6device_map="auto"Threadpool66.24s
v5device_map="auto"Async20.71s
v5TPAsync10.1s

速度提升来自:单次路由、异步实例化、转换感知调度

3. 专家后端系统

4. 专家并行 (Expert Parallelism)

将专家分布到多个设备,每个设备只加载分配给自己的专家子集。

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.distributed.configuration_utils import DistributedConfig

distributed_config = DistributedConfig(enable_expert_parallel=True)

model = AutoModelForCausalLM.from_pretrained(
    "openai/gpt-oss-120b",
    dtype="auto",
    distributed_config=distributed_config,
)

训练优化:与 Unsloth 合作

主流 MoE 模型时间线

查看原文 →