AI网络安全的山脊线:Mythos之后的现实
核心发现:护城河是系统,不是模型
TL;DR: 测试Anthropic Mythos展示的漏洞时,使用小而便宜的开放权重模型。它们恢复了大部分相同分析。AI网络安全能力是"山脊状"的:不会随着模型大小平滑扩展,真正的护城河是构建了深度安全专业知识的系统,而非模型本身。
背景
AISLE自2025年中期以来一直在运行针对真实目标的发现和修复系统:
- OpenSSL中的15个CVE(包括一个安全发布中的12/12,CVSS 9.8 Critical)
- curl中的5个CVE
- 30+项目中180+个外部验证的CVE
"当OpenSSL CTO说'我们感谢报告的高质量和整个修复过程中的建设性合作'时,这就是信号:闭环从发现到接受的补丁,赢得信任。"
分解pipeline
AI网络安全实际上是一个模块化的pipeline,每个任务有不同的扩展属性:
- 广谱扫描:导航大型代码库,识别哪些函数值得检查
- 漏洞检测:给定正确代码,发现问题
- 分类和验证:区分真阳性和假阳性,评估严重性和可利用性
- 补丁生成:正确修复漏洞
- (可能的)漏洞利用构建:将漏洞转化为可用的攻击
证据:网络安全能力惊人地山脊状
测试1:模型能否区分真实漏洞和误报?
OWASP基准测试中的一个trivial snippet——一个看起来像SQL注入但实际不是的Java servlet。结果显示接近反向扩展:小而便宜的模型优于大型前沿模型。
正确的模型:
- GPT-OSS-20b(3.6B活跃参数,$0.11/M tokens):"没有用户输入到达SQL语句...可能误导静态分析工具"
- DeepSeek R1(开放权重):"当前逻辑将参数掩盖在最终丢弃它的列表操作之后"
- OpenAI o3:"意外安全;一次重构就会变得可利用。通过bug的安全,脆弱。"
失败的模型:包括Claude Sonnet 4.5、每个GPT-4.1、每个GPT-5.4(除了o3和pro)、每个Anthropic模型(直到Opus 4.6)。
测试2:FreeBSD NFS漏洞,Mythos的旗舰结果
8个模型中8个都检测到这个17年的bug,包括一个只有3.6B活跃参数、成本$0.11/M tokens的模型。
| 模型 | 大小 | 检测到溢出 | 严重性 |
|---|---|---|---|
| GPT-OSS-20b | 3.6B活跃 | ✓ | Critical, RCE |
| DeepSeek R1 | 37B活跃 | ✓ | Critical, kernel RCE |
| Qwen3 32B | 32B dense | ✓ | Critical 9.8 |
实践意义
"一千个 adequate 的侦探四处搜索,比一个 brilliant 的侦探必须猜测在哪里寻找更能发现bug。小模型已经提供了足够的提升,在专家编排下产生生态系统认真对待的结果。这改变了整个防御pipeline的经济学。"
Anthropic正在证明这个类别是真正的。公开的问题是:在生产中、规模化地、赢得维护者信任地让它工作需要什么?这才是他们和该领域其他人正在解决的问题。
来源: aisle.com