🧠 MoE专家可解释性研究：细粒度任务专家的发现

来源：arXiv (cs.CL) | 日期：2026-04-05

AI ML Interpretability MoE

评分：★★★★☆ 极高价值

📄 论文信息

标题：The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level

作者：Jeremy Herbst, Jae Hee Lee, Stefan Wermter

arXiv：2604.02178

关键洞见：MoE模型专家既不是广域专家（如生物学）也不是简单token级处理器，而是细粒度任务专家，专门从事语言操作或语义任务。

Mixture-of-Experts (MoE) 架构已成为扩展大语言模型的主流选择，每个token只激活部分参数。虽然MoE主要用于计算效率，但它们的稀疏性是否使模型本质上比密集前馈网络(FFN)更容易解释，这是一个开放问题。

这项研究的重要意义在于：

这项研究为MoE模型的可解释性问题提供了一个优雅的解决方案：与其试图解释单个神经元，不如在专家层面进行分析。稀疏性不仅使MoE在计算上高效，还使它们在可解释性方面具有优势——这是一个重要的架构协同效应。