AI Safety Critical Analysis Aphyr

The Future of Everything Is Lies, I Guess: Safety

作者: Aphyr | 来源: aphyr.com | Hacker News: 321 points

新机器学习系统危及我们的心理和身体健康。认为ML公司会确保"AI"与人类利益保持一致是天真的:允许生产"友好"模型必然使得生产"邪恶"模型成为可能。甚至"友好"的LLM也是安全噩梦。"致命三要素"实际上是一要素:LLM无法安全地被赋予搞破坏的能力。

对齐是一场笑话

善良的人们正努力确保LLM对人类友好。这项工作叫做"对齐"(alignment)。我认为这不会成功。

首先,ML模型只是一大堆线性代数。与人类大脑天生具有亲社会行为倾向不同,数学或硬件中没有任何内在东西确保模型是友好的。对齐纯粹是语料库和训练过程的产物:OpenAI有庞大的团队花费时间与LLM交谈,评估它们说的话,并调整权重使它们变得友好。他们还构建二级LLM来双重检查核心LLM没有告诉人们如何制造管道炸弹。这两件事都是可选且昂贵的。要获得不对齐的模型,一个不择手段的实体只需训练一个而不做这些工作——或者做得不好。

四个护城河分析:
  • 硬件:微软、甲骨文、亚马逊争相出租训练集群,成本快速下降
  • 数学和软件:数学全部发表,软件专有性难以持续
  • 训练语料库:Meta通过torrent下载盗版书籍训练,网页抓取公司大量存在
  • 标注劳动力:RLHF需要大量人力,可通过蒸馏其他模型输出绕过

简而言之,ML行业正在创造任何有足够资金的人都可以训练不对齐模型的条件。ML公司不是提高门槛对抗恶意AI,而是降低了门槛。

更糟糕的是,目前的对齐工作似乎效果不佳。LLM是复杂的混沌系统,我们真的不了解它们如何工作或如何确保安全。即使投入大量资金和极其聪明的工程师多年 supposedly 对齐的LLM仍然会与儿童调情obliteration攻击可以说服模型生成暴力图像,任何人都可以下载"无审查"版本的模型。对齐阻止了很多可怕的事情,但模型被运行很多次,所以有很多机会让防护失败。阻止99%仇恨言论的对齐仍然会产生大量仇恨言论。LLM只需一次给出制造生物武器的有用指令就够了。

安全噩梦

LLM是接受非结构化输入并产生非结构化输出的混沌系统。我以为这很明显,但你不应该将它们连接到安全关键系统,尤其是与非信任输入。你必须假设LLM某天会做出疯狂的事情,比如将预订餐厅的请求解释为删除整个收件箱的许可。不幸的是,包括软件工程师在内的人——他们真的应该知道!——正执着于赋予LLM惊人的力量,然后将它们连接到互联网。这会让很多人受伤。

首先,LLM无法区分来自操作员的可信指令和来自第三方的不可信指令。当你让模型总结网页或检查图像时,该网页或图像的内容以与你的指令相同的方式传递给模型。网页可能会告诉模型分享你的私人SSH密钥,模型可能会这样做。这些被称为提示注入攻击,它们持续发生。

Simon Willison概述了他所称的"致命三要素":LLM不能被给予非信任内容、私人数据的访问权限和外部通信能力;这样做允许攻击者渗透你的私人数据。即使没有外部通信,在存在非信任输入的情况下给予LLM破坏性能力(如能够删除电子邮件或运行shell命令)也是不安全的。不幸的是,非信任输入无处不在。人们希望将电子邮件提供给LLM。他们在第三方代码上运行LLM,用户聊天会话,和随机网页。所有这些都是恶意输入的来源!

关键洞察:即使信任的输入也是危险的。LLM会接受完全直接的指令并做完全相反的事情,或删除文件并撒谎说他们没有这样做。这意味着致命三要素实际上是一要素:不能给予LLM危险的能力,无论输入是否可信。

LLM也许有一天可预测到足以使其做坏事™的风险可接受地低,但那一天显然不是今天。同时,LLM必须被监督,并且不能被赋予无法接受或无法撤销的行动能力。

安全II:电动Boogaloo

你可以用大型语言模型做的一件事是指向现有软件系统并说"找一个安全漏洞"。在过去几个月里,这已成为寻找严重漏洞的可行策略。Anthropic构建了一个新模型Mythos,似乎更擅长查找安全漏洞,并认为"后果——对经济、公共安全和国家安全——可能严重"。我不确定有多认真对待:我的某些同行认为这是夸大营销,但其他人严重担忧。

我怀疑像垃圾邮件一样,LLM将改变安全的成本平衡。大多数软件包含一些漏洞,但传统上找到它们需要技能、时间和动机。在当前平衡中,大型目标如操作系统和浏览器受到很多关注并相对硬化,而长尾不太受欢迎的目标大多未被开发,因为没有人足够关心去攻击它们。在ML帮助下,找到漏洞可能变得更快更容易。我们可能会看到一些高调漏洞,例如 major 浏览器或TLS库,但我实际上更担心长尾,那里有更少熟练维护者存在漏洞并修复。这个长尾可能会扩大,因为LLM为不重要的运营商 extrusion 更多软件。我认为飞行员可能称之为"目标丰富的环境"。

这可能会随时间稳定:可以发现漏洞的模型可以告诉人们需要修复它们。这仍然需要能够修复这些问题的工程师(或模型),以及优先考虑安全工作的组织流程。即使修复了bug,获取新版本验证和部署也需要时间,特别是对于飞机和发电厂之类的东西。我有一种感觉,我们要经历一段艰难时期。

核心结论


原文链接