🤖 LLM幻觉机制与置信度校准

AI Research ★★★★☆ 2026-04-06

核心发现一:为什么LLM会产生幻觉

来源:LessWrong - "Paper close reading: Why Language Models Hallucinate" by LawrenceC

论文:Kalai et al (OpenAI) - "Why Language Models Hallucinate" (arXiv:2509.04664)

关键洞见

实验验证

核心发现二:LLM置信度黑盒评估

来源:LessWrong - "A Black-Box Procedure for LLM Confidence in Critical Applications" by Jadair (2026-04-06)

三步评估法

  1. 训练数据密度:用Google搜索结果数估算(<50M results开始下降)
  2. 答案稳定性:重复5次问题,测一致性(R²=0.99 预测准确率)
  3. 知识边界:关闭搜索问相关问题,检测训练覆盖

关键数据

实践意义

在关键应用中使用LLM时:

  1. 不要相信模型的自我置信度
  2. 重复问题测稳定性
  3. 搜索结果数<50M的主题要额外谨慎