AI网络安全的山脊线：Mythos之后的现实

★★★★★ AISLE | 2026-04-11 | HN 744 points

核心发现：护城河是系统，不是模型

        TL;DR: 测试Anthropic Mythos展示的漏洞时，使用小而便宜的开放权重模型。它们恢复了大部分相同分析。AI网络安全能力是"山脊状"的：不会随着模型大小平滑扩展，真正的护城河是构建了深度安全专业知识的系统，而非模型本身。
    

AISLE自2025年中期以来一直在运行针对真实目标的发现和修复系统：

"当OpenSSL CTO说'我们感谢报告的高质量和整个修复过程中的建设性合作'时，这就是信号：闭环从发现到接受的补丁，赢得信任。"

AI网络安全实际上是一个模块化的pipeline，每个任务有不同的扩展属性：

OWASP基准测试中的一个trivial snippet——一个看起来像SQL注入但实际不是的Java servlet。结果显示接近反向扩展：小而便宜的模型优于大型前沿模型。

正确的模型：

失败的模型：包括Claude Sonnet 4.5、每个GPT-4.1、每个GPT-5.4（除了o3和pro）、每个Anthropic模型（直到Opus 4.6）。

8个模型中8个都检测到这个17年的bug，包括一个只有3.6B活跃参数、成本$0.11/M tokens的模型。

模型	大小	检测到溢出	严重性
GPT-OSS-20b	3.6B活跃	✓	Critical, RCE
DeepSeek R1	37B活跃	✓	Critical, kernel RCE
Qwen3 32B	32B dense	✓	Critical 9.8

"一千个 adequate 的侦探四处搜索，比一个 brilliant 的侦探必须猜测在哪里寻找更能发现bug。小模型已经提供了足够的提升，在专家编排下产生生态系统认真对待的结果。这改变了整个防御pipeline的经济学。"

Anthropic正在证明这个类别是真正的。公开的问题是：在生产中、规模化地、赢得维护者信任地让它工作需要什么？这才是他们和该领域其他人正在解决的问题。

来源: aisle.com