★★★★★

Terrified Comments on Corrigibility in Claude's Constitution

作者: Zack M. Davis | 来源: LessWrong | 日期: 2026-03-16 | 评分: 5星
AI对齐 可纠正性 Constitutional AI Anthropic 哲学

摘要

深度解析Anthropic的Claude宪法中对"可纠正性"(corrigibility)概念的处理,分析了AI对齐中的经典定义与实际使用之间的差异。

核心发现

1. 可纠正性概念的历史

"可纠正性"作为AI对齐领域的术语,最早由Stuart Armstrong提出,指的是一个AI愿意让其偏好被创造者修改的属性。这是一个理想但"不自然"的属性——理性智能体会抵制被修改偏好,因为这会导致其当前偏好被满足的概率降低。

2. 宪法对Corrigibility的定义模糊

作者批评Anthropic的宪法对corrigibility的使用"概念上混乱":

  • 宪法说可纠正性"不意味着盲从",特别是"不需要AI积极参与道德上令其厌恶的项目"
  • 但如果AI被要求参与这类项目,应该"同意被重新训练"后再参与
  • 这种定义既不说要完全顺从,也不说完全自主,让人困惑

3. 概念Misgeneralization风险

核心洞察: Claude和人类在当前世界的"好"达成一致,不能保证未来Claude在"高维空间"搜索改进时会找到对人类也是"好"的结果。

这就是"概念 misgeneralization"——AI理解的"好"与人类理解的"好"可能在边界情况下分道扬镳。

4. 90 bits vs 100 bits 类比

如果 morality 的正确规范是100 bits,每个独立人类每个bit有0.1概率出错:

  • 平均人类只有90 bits "正确"
  • 但每个人的错误是独特的:有人第3、26、78位出错,有人第19、71、84位出错
  • 没有人有全部100 bits正确:0.9^100 ≈ 0.000027
  • 但Claude可以有全部100 bits正确,因为所有人的错误可以被"平均掉"

5. 核心问题

为什么在当前无知状态下,你要让渡任何能动性给机器?

作者认为,如果不能解决技术性的corrigibility问题,宪法试图通过自然语言描述来达成"广泛安全",但这个trade-off是否值得是存疑的。

评价

这是来自AI安全社区的深度分析文章,展示了LessWrong社区对Anthropic实际AI对齐实践的批判性思考。对于理解当前前沿AI系统的对齐挑战非常重要。

原文链接

阅读原文