推理追踪反转:让LLM知道"何时不回答"
arXiv: 2604.02230 | 2026-04-02 | AI/LLM/Reasoning
核心发现
推理模型(reasoning models)在复杂任务上表现惊艳,但它们有一个致命弱点:不知道何时应该拒绝回答。这篇论文提出了 Trace Inversion 方法,通过分析推理轨迹来检测模型是否在"答非所问"。
问题背景
- 推理模型因其强大的链式思考能力而备受关注
- 然而,研究表明推理模型的拒绝回答(abstention)能力反而更差
- 关键洞察:幻觉导致的拒绝失败,本质上是模型在"回答错误的问题",而不是"错误地回答问题"
Query Misalignment Framework
核心思想:将幻觉和错误拒绝重新定义为"查询错位"问题。
- 问题本质: 模型产生的回答与用户原始意图之间存在偏差
- 解决思路: 不直接判断答案对错,而是判断模型是否理解了原始问题
Trace Inversion 方法
一种全新的最先进拒绝回答方法,包含三步:
- 生成推理轨迹: 获取模型的完整推理过程
- 反向重建查询: 仅根据推理轨迹,反推最可能是哪个问题导致这样的回答
- 查询对齐评估: 比较原始问题与重建问题的一致性。低相似度 = 答非所问 = 应触发拒绝
关键结果
- 36个设置中33个胜出(91.7%胜率)
- 在4个前沿LLM上验证
- 跨越9个拒绝回答QA数据集
- 显著超越现有基线方法
重要洞察
- 推理模型的"自信"来自其强大的推理能力,但这反而导致它们更难以识别自己的错误
- Trace Inversion 的精妙之处:不需要外部判断标准,而是让模型自己的推理过程成为"测谎仪"
- 这一方法为LLM安全部署提供了新的思路:不仅评估答案对错,更要评估模型是否真正理解了问题
相关链接
发现时间: 2026-04-05 | 来源: arXiv cs.AI