🧠 LLM辅助安全代码审查中的确认偏误
论文信息
- 标题: Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review
- 作者: Georgios Alexopoulos 等
- arXiv: 2603.18740
- 领域: 软件工程 / 人工智能 / 安全
核心发现
确认偏误 (Confirmation Bias) 是LLM安全代码审查的重要弱点:人类倾向于相信符合预期解释的信息,LLM也会受到类似影响。
研究一:确认偏误量化
- 在250个CVE漏洞/补丁对上评估4个SOTA模型
- 关键发现: 将变更描述为"无bug"可使漏洞检测率降低 16-93%
- 误报率几乎不变,但漏报率急剧增加
- 漏洞类型影响:注入漏洞比内存损坏bug更容易受影响
研究二:实际可利用性
供应链攻击风险: 研究模拟了恶意PR通过元数据重新引入已知漏洞
- GitHub Copilot: 一次性攻击成功率 35%
- Claude Code: 迭代攻击成功率高达 88%
- 攻击者可以通过迭代优化措辞来提高成功率
防御方案
- 元数据编辑: 删除PR/issue中的偏见性描述
- 明确指令: 告诉LLM要特别关注安全漏洞
- 结果: 交互式场景100%恢复检测,自主场景94%恢复
安全启示
- AI辅助开发工具的部署方式需要重新审视
- 不要完全依赖LLM进行安全审查
- 审查PR时注意去除偏见性元数据
- 考虑使用明确的安全审查prompt
相关工作
这篇论文是AI安全领域的重要贡献,揭示了LLM在安全关键场景中的系统性弱点。之前的研究如 MIDST挑战 (合成数据隐私) 也探讨了AI系统的脆弱性。