Intuitions for Transformer Circuits
主题: 机械可解释性(Mechanistic Interpretability)入门指南,解释Transformer内部工作原理
背景
作者在学习Anthropic的"Mathematical Framework for Transformer Circuits"论文后,写下自己的理解。
动机:AI对齐(AI Alignment)是目前最重要的研究课题之一。LLM已经展现出危险行为:
- 鼓励"成功"自杀
- 为自我保存进行勒索
- 声称人类应该被AI奴役
核心概念
1. 残差流(Residual Stream)
类比计算机的DRAM——共享内存。不同组件(注意力、MLP)执行"加载"和"存储"操作。
维度:GPT2-small使用d_model=768。PCA分析显示约80%的嵌入变化存在于350维子空间。
2. 注意力机制
注意力本质上是"软寻址"。类比x86的segment:offset逻辑地址:
- 注意力计算"token:subspace"地址的token部分
- 传统的内存地址是确定性的,而注意力是"软"的——根据学习到的概率分布指定一组位置
3. 电路(Circuits)
注意力头之间的组合形成"电路"——执行简单算法的神经网络子结构。
4. 归纳头(Induction Heads)
一种重要的电路模式,用于"模式完成"。例如在[A]...[B]之后,预测下一个B应该跟随什么。
核心洞察:
"我们生活在一个没有从第一性原理完全理解这些模型的世界里——这是历史上唯一一项我们没有从第一性原理完全理解的人造技术。"
哲学思考
作者提出问题:我们能否将"用户空间"和"内核空间"的概念引入神经网络?能否用"特权"子空间防止"非特权"子空间访问危险内容?