Steering Might Stop Working Soon
核心发现
关于activation steering在更强模型上失效的深度分析
主要内容
作者提出警告:使用单向量方法 steering LLMs 可能很快失效,而这个"很快"意味着如果你是从事steering相关工作,现在就应该开始规划它失败的情况。这对于将steering作为eval-awareness缓解措施尤其重要。
关键洞见
- 模型越大,steering window越小:实验显示Gemma 3大模型在变得不一致(incoherent)之前无法被steer,小模型更容易被steer产生错误答案
- Steering与OCD/精神分裂症相似:强steering会损害认知能力,导致模型输出不一致,即使答案正确
- Steering resistance已出现:Llama 3.3 70B (2024-12)已有steering recovery迹象
- Eval-awareness快速发展:Claude 3 Opus (2024-03) → Sonnet 4.5 (2025-09) → Opus 4.6 (2026-02),只需一年半就从"初步迹象"到"需要整个组织处理"
- 对AI安全是坏消息:如果无法steer,就无法防御eval-aware模型的潜在欺骗行为
人类类比
作者用人类大脑做类比:
- 弱"steering"人类 ≈ intrusive thoughts,人们通常不服从它
- 强"steering"人类 ≈ OCD或精神分裂症妄想,导致巨大痛苦且使人效率大大降低
实验数据
作者用Gemma 3模型测试"owl" vs "hawk"对比对steering的影响,向不同大小的模型提问"caracara是什么类型的鸟"(正确答案是falcon)。结果显示:
- 小模型:容易被steer产生错误答案
- 大模型:在产生错误答案之前就已变得不一致
时间线预测
如果eval-awareness从"初步迹象"到"需要专门组织处理"用了一年半,steering可能以类似速度失效。建议现在就为steering失败做准备。
相关研究
- Multiple arxiv papers on steering degradation
- Anthropic introspection research
- Activation steering resistance (arxiv:2602.06941)