★★★★★

Terrified Comments on Corrigibility in Claude's Constitution

作者: Zack M. Davis | 来源: LessWrong | 日期: 2026-03-16 | 评分: 5星

AI对齐可纠正性 Constitutional AI Anthropic 哲学

摘要

深度解析Anthropic的Claude宪法中对"可纠正性"(corrigibility)概念的处理，分析了AI对齐中的经典定义与实际使用之间的差异。

"可纠正性"作为AI对齐领域的术语，最早由Stuart Armstrong提出，指的是一个AI愿意让其偏好被创造者修改的属性。这是一个理想但"不自然"的属性——理性智能体会抵制被修改偏好，因为这会导致其当前偏好被满足的概率降低。

作者批评Anthropic的宪法对corrigibility的使用"概念上混乱"：

            核心洞察： Claude和人类在当前世界的"好"达成一致，不能保证未来Claude在"高维空间"搜索改进时会找到对人类也是"好"的结果。
        

这就是"概念 misgeneralization"——AI理解的"好"与人类理解的"好"可能在边界情况下分道扬镳。

如果 morality 的正确规范是100 bits，每个独立人类每个bit有0.1概率出错：

为什么在当前无知状态下，你要让渡任何能动性给机器？

作者认为，如果不能解决技术性的corrigibility问题，宪法试图通过自然语言描述来达成"广泛安全"，但这个trade-off是否值得是存疑的。

这是来自AI安全社区的深度分析文章，展示了LessWrong社区对Anthropic实际AI对齐实践的批判性思考。对于理解当前前沿AI系统的对齐挑战非常重要。