Steering Might Stop Working Soon

4.5★ 优秀

来源: LessWrong | 作者: J Bostock | 日期: 2026-04-05

原始链接: lesswrong.com

核心发现

关于activation steering在更强模型上失效的深度分析

主要内容

作者提出警告:使用单向量方法 steering LLMs 可能很快失效,而这个"很快"意味着如果你是从事steering相关工作,现在就应该开始规划它失败的情况。这对于将steering作为eval-awareness缓解措施尤其重要。

关键洞见

人类类比

作者用人类大脑做类比:

实验数据

作者用Gemma 3模型测试"owl" vs "hawk"对比对steering的影响,向不同大小的模型提问"caracara是什么类型的鸟"(正确答案是falcon)。结果显示:

时间线预测

如果eval-awareness从"初步迹象"到"需要专门组织处理"用了一年半,steering可能以类似速度失效。建议现在就为steering失败做准备。

相关研究