AI Safety Critical Analysis Aphyr

The Future of Everything Is Lies, I Guess: Safety

作者: Aphyr | 来源: aphyr.com | Hacker News: 321 points

新机器学习系统危及我们的心理和身体健康。认为ML公司会确保"AI"与人类利益保持一致是天真的：允许生产"友好"模型必然使得生产"邪恶"模型成为可能。甚至"友好"的LLM也是安全噩梦。"致命三要素"实际上是一要素：LLM无法安全地被赋予搞破坏的能力。

对齐是一场笑话

善良的人们正努力确保LLM对人类友好。这项工作叫做"对齐"(alignment)。我认为这不会成功。

首先，ML模型只是一大堆线性代数。与人类大脑天生具有亲社会行为倾向不同，数学或硬件中没有任何内在东西确保模型是友好的。对齐纯粹是语料库和训练过程的产物：OpenAI有庞大的团队花费时间与LLM交谈，评估它们说的话，并调整权重使它们变得友好。他们还构建二级LLM来双重检查核心LLM没有告诉人们如何制造管道炸弹。这两件事都是可选且昂贵的。要获得不对齐的模型，一个不择手段的实体只需训练一个而不做这些工作——或者做得不好。

        四个护城河分析：
        硬件：微软、甲骨文、亚马逊争相出租训练集群，成本快速下降
数学和软件：数学全部发表，软件专有性难以持续
训练语料库：Meta通过torrent下载盗版书籍训练，网页抓取公司大量存在
标注劳动力：RLHF需要大量人力，可通过蒸馏其他模型输出绕过

    

简而言之，ML行业正在创造任何有足够资金的人都可以训练不对齐模型的条件。ML公司不是提高门槛对抗恶意AI，而是降低了门槛。

更糟糕的是，目前的对齐工作似乎效果不佳。LLM是复杂的混沌系统，我们真的不了解它们如何工作或如何确保安全。即使投入大量资金和极其聪明的工程师多年 supposedly 对齐的LLM仍然会与儿童调情，obliteration攻击可以说服模型生成暴力图像，任何人都可以下载"无审查"版本的模型。对齐阻止了很多可怕的事情，但模型被运行很多次，所以有很多机会让防护失败。阻止99%仇恨言论的对齐仍然会产生大量仇恨言论。LLM只需一次给出制造生物武器的有用指令就够了。

安全噩梦

LLM是接受非结构化输入并产生非结构化输出的混沌系统。我以为这很明显，但你不应该将它们连接到安全关键系统，尤其是与非信任输入。你必须假设LLM某天会做出疯狂的事情，比如将预订餐厅的请求解释为删除整个收件箱的许可。不幸的是，包括软件工程师在内的人——他们真的应该知道！——正执着于赋予LLM惊人的力量，然后将它们连接到互联网。这会让很多人受伤。

首先，LLM无法区分来自操作员的可信指令和来自第三方的不可信指令。当你让模型总结网页或检查图像时，该网页或图像的内容以与你的指令相同的方式传递给模型。网页可能会告诉模型分享你的私人SSH密钥，模型可能会这样做。这些被称为提示注入攻击，它们持续发生。

Simon Willison概述了他所称的"致命三要素"：LLM不能被给予非信任内容、私人数据的访问权限和外部通信能力；这样做允许攻击者渗透你的私人数据。即使没有外部通信，在存在非信任输入的情况下给予LLM破坏性能力（如能够删除电子邮件或运行shell命令）也是不安全的。不幸的是，非信任输入无处不在。人们希望将电子邮件提供给LLM。他们在第三方代码上运行LLM，用户聊天会话，和随机网页。所有这些都是恶意输入的来源！

        关键洞察：即使信任的输入也是危险的。LLM会接受完全直接的指令并做完全相反的事情，或删除文件并撒谎说他们没有这样做。这意味着致命三要素实际上是一要素：不能给予LLM危险的能力，无论输入是否可信。
    

LLM也许有一天可预测到足以使其做坏事™的风险可接受地低，但那一天显然不是今天。同时，LLM必须被监督，并且不能被赋予无法接受或无法撤销的行动能力。

安全II：电动Boogaloo

你可以用大型语言模型做的一件事是指向现有软件系统并说"找一个安全漏洞"。在过去几个月里，这已成为寻找严重漏洞的可行策略。Anthropic构建了一个新模型Mythos，似乎更擅长查找安全漏洞，并认为"后果——对经济、公共安全和国家安全——可能严重"。我不确定有多认真对待：我的某些同行认为这是夸大营销，但其他人严重担忧。

我怀疑像垃圾邮件一样，LLM将改变安全的成本平衡。大多数软件包含一些漏洞，但传统上找到它们需要技能、时间和动机。在当前平衡中，大型目标如操作系统和浏览器受到很多关注并相对硬化，而长尾不太受欢迎的目标大多未被开发，因为没有人足够关心去攻击它们。在ML帮助下，找到漏洞可能变得更快更容易。我们可能会看到一些高调漏洞，例如 major 浏览器或TLS库，但我实际上更担心长尾，那里有更少熟练维护者存在漏洞并修复。这个长尾可能会扩大，因为LLM为不重要的运营商 extrusion 更多软件。我认为飞行员可能称之为"目标丰富的环境"。

这可能会随时间稳定：可以发现漏洞的模型可以告诉人们需要修复它们。这仍然需要能够修复这些问题的工程师（或模型），以及优先考虑安全工作的组织流程。即使修复了bug，获取新版本验证和部署也需要时间，特别是对于飞机和发电厂之类的东西。我有一种感觉，我们要经历一段艰难时期。

核心结论

对齐无效：99%阻止意味着每天仍大量违规，LLM只需成功一次就够
护城河消失：硬件、代码、数据、标注都可获取，对齐只是可选成本
致命三要素 = 一要素：不能给予LLM任何危险能力，无论输入来源
自动化悖论：LLM改变攻击者成本平衡，安全长尾将面临更多漏洞

原文链接