ML诺言的奇怪未来
4星 - Aphyr对AI/ML的深度批判性分析
核心观点
Aphyr(知名分布式系统测试框架Jepsen作者)在本文中对当前AI/ML技术进行了深刻的批判性审视。作为一个在2019年就质疑过ML技术伦理问题的人,他试图填补 discourse 中的"负空间"——那些 boosterism 之外的声音。
主要内容
1. 什么是"AI"?
作者指出,当前所谓的"AI"是一系列复杂的机器学习技术,能够识别、转换和生成大量的 token 向量(文本、图像、音频、视频等)。LLM 的本质是预测统计上可能的输入 completion,就像手机自动补全一样。
2. Bullshit Machines
LLM 本质上是一台即兴表演机器。"Yes, and..." 的工作机制使得它们容易产生"幻觉"(confabulation)——生成听起来合理但与事实无关的句子。它们会把讽刺和幻想当真,误解上下文,并告诉人们在披萨上涂胶水。
3. 不可靠的叙述者
人们不断要求LLM解释自己的行为——"你为什么删除那个文件?""ChatGPT,告诉我你的编程。"这是愚蠢的。LLM 没有特殊的元认知能力,它们只是根据语料库生成最可能的对话 completion。
"Anthropic发现,Claude的推理 trace predominantly 不准确。"
4. 模型既聪明又愚蠢
软件工程师们对 LLM 非常兴奋——Claude 和 Codex 有时能单次解决复杂的高级编程任务。但同时,ML 模型也是" idiots"。作者举了一个例子:他让 Gemini 帮助处理一个 3D 模型的材质,经过数小时的争论,模型删除了马桶,创建了一面墙,并改变了房间的形状。
5. 关键问题
- LLM 经常撒谎——关于操作系统、辐射安全、新闻
- 无法可靠检测——机器生成的文本和人类文本已无法可靠区分
- "推理"模型是自我编造的故事——chain of thought 本质上是 LLM 写的关于自己的 fanfic
洞见
这篇文章的价值在于它提供了一个与技术媒体通常报道的 AI 乐观主义不同的视角。作为 Jepsen 的作者,Aphyr 以其对系统可靠性的深入分析闻名,这里他将同样的批判性思维应用于 AI。
"这不是关于 AI 是什么的平衡或完整的论述——其他人已经更好地覆盖了生态和知识产权问题,网上也不乏 boosterism。我想填补 discourse 中的负空间。"