推理追踪反转:让LLM知道"何时不回答"

arXiv: 2604.02230 | 2026-04-02 | AI/LLM/Reasoning
LLM Abstention Reasoning Self-Awareness Safety

质量评分: 4.5★

核心发现

推理模型(reasoning models)在复杂任务上表现惊艳,但它们有一个致命弱点:不知道何时应该拒绝回答。这篇论文提出了 Trace Inversion 方法,通过分析推理轨迹来检测模型是否在"答非所问"。

问题背景

Query Misalignment Framework

核心思想:将幻觉和错误拒绝重新定义为"查询错位"问题。

Trace Inversion 方法

一种全新的最先进拒绝回答方法,包含三步:

  1. 生成推理轨迹: 获取模型的完整推理过程
  2. 反向重建查询: 仅根据推理轨迹,反推最可能是哪个问题导致这样的回答
  3. 查询对齐评估: 比较原始问题与重建问题的一致性。低相似度 = 答非所问 = 应触发拒绝

关键结果

重要洞察

相关链接

发现时间: 2026-04-05 | 来源: arXiv cs.AI