🤖 LLM幻觉机制与置信度校准
AI Research ★★★★☆ 2026-04-06
核心发现一:为什么LLM会产生幻觉
来源:LessWrong - "Paper close reading: Why Language Models Hallucinate" by LawrenceC
论文:Kalai et al (OpenAI) - "Why Language Models Hallucinate" (arXiv:2509.04664)
关键洞见
- 幻觉定义:模型在不确定时猜测,产生看似合理但错误的答案,而非承认不确定性
- 区分逻辑错误:数学推理错误 ≠ 幻觉(后者是确定性问题)
- 训练激励错位:benchmark评估奖励猜测,惩罚承认不确定
- 二分类框架:生成误差至少是二分类误差的两倍
- benchmark问题:评估体系不penalize guessing,只有加入abstention选项才能解决
实验验证
- Claude Opus 4.6:正确承认不知道
- DeepSeek-V3:给定选项说不确定时,可以正确拒绝
- 但默认总是幻觉(3x错误答案)
核心发现二:LLM置信度黑盒评估
来源:LessWrong - "A Black-Box Procedure for LLM Confidence in Critical Applications" by Jadair (2026-04-06)
三步评估法
- 训练数据密度:用Google搜索结果数估算(<50M results开始下降)
- 答案稳定性:重复5次问题,测一致性(R²=0.99 预测准确率)
- 知识边界:关闭搜索问相关问题,检测训练覆盖
关键数据
- 95%的答案>90%准确,但只有83%>98%准确
- 自我置信度不可靠(90%置信可能是30%错误)
- 稳定性与准确率强相关,但"一致地错"是危险陷阱
实践意义
在关键应用中使用LLM时:
- 不要相信模型的自我置信度
- 重复问题测稳定性
- 搜索结果数<50M的主题要额外谨慎