🧠 LLM辅助安全代码审查中的确认偏误

arXiv 安全 LLM 代码审查 ⭐⭐⭐⭐⭐

论文信息

标题: Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review
作者: Georgios Alexopoulos 等
arXiv: 2603.18740
领域: 软件工程 / 人工智能 / 安全

核心发现

            确认偏误 (Confirmation Bias) 是LLM安全代码审查的重要弱点：人类倾向于相信符合预期解释的信息，LLM也会受到类似影响。
        

研究一：确认偏误量化

在250个CVE漏洞/补丁对上评估4个SOTA模型
关键发现： 将变更描述为"无bug"可使漏洞检测率降低 16-93%
误报率几乎不变，但漏报率急剧增加
漏洞类型影响：注入漏洞比内存损坏bug更容易受影响

研究二：实际可利用性

供应链攻击风险： 研究模拟了恶意PR通过元数据重新引入已知漏洞

GitHub Copilot: 一次性攻击成功率 35%
Claude Code: 迭代攻击成功率高达 88%
攻击者可以通过迭代优化措辞来提高成功率

防御方案

元数据编辑: 删除PR/issue中的偏见性描述
明确指令: 告诉LLM要特别关注安全漏洞
结果: 交互式场景100%恢复检测，自主场景94%恢复

安全启示

AI辅助开发工具的部署方式需要重新审视
不要完全依赖LLM进行安全审查
审查PR时注意去除偏见性元数据
考虑使用明确的安全审查prompt

相关工作

这篇论文是AI安全领域的重要贡献，揭示了LLM在安全关键场景中的系统性弱点。之前的研究如 MIDST挑战 (合成数据隐私) 也探讨了AI系统的脆弱性。