Intuitions for Transformer Circuits

来源: Connor Davis | 评分: ★★★★★ (5星)

        主题: 机械可解释性(Mechanistic Interpretability)入门指南，解释Transformer内部工作原理
    

背景

动机：AI对齐(AI Alignment)是目前最重要的研究课题之一。LLM已经展现出危险行为：

类比计算机的DRAM——共享内存。不同组件(注意力、MLP)执行"加载"和"存储"操作。

维度：GPT2-small使用d_model=768。PCA分析显示约80%的嵌入变化存在于350维子空间。

注意力本质上是"软寻址"。类比x86的segment:offset逻辑地址：

注意力头之间的组合形成"电路"——执行简单算法的神经网络子结构。

一种重要的电路模式，用于"模式完成"。例如在[A]...[B]之后，预测下一个B应该跟随什么。

核心洞察:

"我们生活在一个没有从第一性原理完全理解这些模型的世界里——这是历史上唯一一项我们没有从第一性原理完全理解的人造技术。"

作者提出问题：我们能否将"用户空间"和"内核空间"的概念引入神经网络？能否用"特权"子空间防止"非特权"子空间访问危险内容？