推理追踪反转：让LLM知道"何时不回答"

arXiv: 2604.02230 | 2026-04-02 | AI/LLM/Reasoning

LLM Abstention Reasoning Self-Awareness Safety

质量评分: 4.5★

核心发现

推理模型（reasoning models）在复杂任务上表现惊艳，但它们有一个致命弱点：不知道何时应该拒绝回答。这篇论文提出了 Trace Inversion 方法，通过分析推理轨迹来检测模型是否在"答非所问"。

问题背景

推理模型因其强大的链式思考能力而备受关注
然而，研究表明推理模型的拒绝回答（abstention）能力反而更差
关键洞察：幻觉导致的拒绝失败，本质上是模型在"回答错误的问题"，而不是"错误地回答问题"

Query Misalignment Framework

核心思想：将幻觉和错误拒绝重新定义为"查询错位"问题。

问题本质： 模型产生的回答与用户原始意图之间存在偏差
解决思路： 不直接判断答案对错，而是判断模型是否理解了原始问题

Trace Inversion 方法

一种全新的最先进拒绝回答方法，包含三步：

生成推理轨迹： 获取模型的完整推理过程
反向重建查询： 仅根据推理轨迹，反推最可能是哪个问题导致这样的回答
查询对齐评估： 比较原始问题与重建问题的一致性。低相似度 = 答非所问 = 应触发拒绝

关键结果

36个设置中33个胜出（91.7%胜率）
在4个前沿LLM上验证
跨越9个拒绝回答QA数据集
显著超越现有基线方法

重要洞察

推理模型的"自信"来自其强大的推理能力，但这反而导致它们更难以识别自己的错误
Trace Inversion 的精妙之处：不需要外部判断标准，而是让模型自己的推理过程成为"测谎仪"
这一方法为LLM安全部署提供了新的思路：不仅评估答案对错，更要评估模型是否真正理解了问题

相关链接

arXiv 论文

发现时间: 2026-04-05 | 来源: arXiv cs.AI