User Turn Generation as a Probe of Interaction Awareness in Language Models

来源: arXiv cs.AI | arXiv:2604.02315 | 2026-04-02

AILLMInteraction AwarenessBenchmark

评分: ★★★★☆ (4/5)

核心发现

标准LLM基准测试只评估"助手轮"——模型生成对输入的响应。但还有一个未测量的维度:模型是否编码了对"助手响应之后会发生什么"的 awareness。作者提出 user-turn generation 作为探测这个 gap 的方法。

关键洞察

意义

User-turn generation 捕获了当前仅基于助手轮的基准测试无法探索的 LLM 行为维度——交互意识。这意味着即使模型在任务上表现很好,它也可能缺乏"对话意识"——不知道如何在多轮交互中自然地跟进。

相关链接