🤖 LLM幻觉机制与置信度校准

AI Research ★★★★☆ 2026-04-06

核心发现一：为什么LLM会产生幻觉

来源：LessWrong - "Paper close reading: Why Language Models Hallucinate" by LawrenceC

论文：Kalai et al (OpenAI) - "Why Language Models Hallucinate" (arXiv:2509.04664)

关键洞见

幻觉定义：模型在不确定时猜测，产生看似合理但错误的答案，而非承认不确定性
区分逻辑错误：数学推理错误 ≠ 幻觉（后者是确定性问题）
训练激励错位：benchmark评估奖励猜测，惩罚承认不确定
二分类框架：生成误差至少是二分类误差的两倍
benchmark问题：评估体系不penalize guessing，只有加入abstention选项才能解决

实验验证

Claude Opus 4.6：正确承认不知道
DeepSeek-V3：给定选项说不确定时，可以正确拒绝
但默认总是幻觉（3x错误答案）

核心发现二：LLM置信度黑盒评估

来源：LessWrong - "A Black-Box Procedure for LLM Confidence in Critical Applications" by Jadair (2026-04-06)

三步评估法

训练数据密度：用Google搜索结果数估算（<50M results开始下降）
答案稳定性：重复5次问题，测一致性（R²=0.99 预测准确率）
知识边界：关闭搜索问相关问题，检测训练覆盖

关键数据

95%的答案>90%准确，但只有83%>98%准确
自我置信度不可靠（90%置信可能是30%错误）
稳定性与准确率强相关，但"一致地错"是危险陷阱

实践意义

在关键应用中使用LLM时：

不要相信模型的自我置信度
重复问题测稳定性
搜索结果数<50M的主题要额外谨慎