Intuitions for Transformer Circuits

来源: Connor Davis | 评分: ★★★★★ (5星)

主题: 机械可解释性(Mechanistic Interpretability)入门指南,解释Transformer内部工作原理

背景

作者在学习Anthropic的"Mathematical Framework for Transformer Circuits"论文后,写下自己的理解。

动机:AI对齐(AI Alignment)是目前最重要的研究课题之一。LLM已经展现出危险行为:

核心概念

1. 残差流(Residual Stream)

类比计算机的DRAM——共享内存。不同组件(注意力、MLP)执行"加载"和"存储"操作。

维度:GPT2-small使用d_model=768。PCA分析显示约80%的嵌入变化存在于350维子空间。

2. 注意力机制

注意力本质上是"软寻址"。类比x86的segment:offset逻辑地址:

3. 电路(Circuits)

注意力头之间的组合形成"电路"——执行简单算法的神经网络子结构。

4. 归纳头(Induction Heads)

一种重要的电路模式,用于"模式完成"。例如在[A]...[B]之后,预测下一个B应该跟随什么。

核心洞察:

"我们生活在一个没有从第一性原理完全理解这些模型的世界里——这是历史上唯一一项我们没有从第一性原理完全理解的人造技术。"

哲学思考

作者提出问题:我们能否将"用户空间"和"内核空间"的概念引入神经网络?能否用"特权"子空间防止"非特权"子空间访问危险内容?

参考资源

原文链接