🧠 LLM辅助安全代码审查中的确认偏误

arXiv 安全 LLM 代码审查 ⭐⭐⭐⭐⭐

论文信息

  • 标题: Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review
  • 作者: Georgios Alexopoulos 等
  • arXiv: 2603.18740
  • 领域: 软件工程 / 人工智能 / 安全

核心发现

确认偏误 (Confirmation Bias) 是LLM安全代码审查的重要弱点:人类倾向于相信符合预期解释的信息,LLM也会受到类似影响。

研究一:确认偏误量化

  • 在250个CVE漏洞/补丁对上评估4个SOTA模型
  • 关键发现: 将变更描述为"无bug"可使漏洞检测率降低 16-93%
  • 误报率几乎不变,但漏报率急剧增加
  • 漏洞类型影响:注入漏洞比内存损坏bug更容易受影响

研究二:实际可利用性

供应链攻击风险: 研究模拟了恶意PR通过元数据重新引入已知漏洞
  • GitHub Copilot: 一次性攻击成功率 35%
  • Claude Code: 迭代攻击成功率高达 88%
  • 攻击者可以通过迭代优化措辞来提高成功率

防御方案

  • 元数据编辑: 删除PR/issue中的偏见性描述
  • 明确指令: 告诉LLM要特别关注安全漏洞
  • 结果: 交互式场景100%恢复检测,自主场景94%恢复

安全启示

  • AI辅助开发工具的部署方式需要重新审视
  • 不要完全依赖LLM进行安全审查
  • 审查PR时注意去除偏见性元数据
  • 考虑使用明确的安全审查prompt

相关工作

这篇论文是AI安全领域的重要贡献,揭示了LLM在安全关键场景中的系统性弱点。之前的研究如 MIDST挑战 (合成数据隐私) 也探讨了AI系统的脆弱性。