User Turn Generation as a Probe of Interaction Awareness in Language Models

来源: arXiv cs.AI | arXiv:2604.02315 | 2026-04-02

AILLMInteraction AwarenessBenchmark

评分: ★★★★☆ (4/5)

核心发现

标准LLM基准测试只评估"助手轮"——模型生成对输入的响应。但还有一个未测量的维度：模型是否编码了对"助手响应之后会发生什么"的 awareness。作者提出 user-turn generation 作为探测这个 gap 的方法。

关键洞察

交互意识与任务准确性解耦：在Qwen3.5家族中，GSM8K准确率从41%（0.8B）扩展到96.8%（397B-A17B），但确定性生成下的真实跟进率接近零
更高温度采样揭示潜在意识：温度采样显示交互意识是潜在的，跟进率达到22%
协作导向的后训练有效：在Qwen3.5-2B上训练协作导向数据后，跟进率增加
跨模型验证：在11个开源LLM（Qwen3.5, gpt-oss, GLM）和5个数据集（数学推理、指令跟随、对话）上验证

意义

User-turn generation 捕获了当前仅基于助手轮的基准测试无法探索的 LLM 行为维度——交互意识。这意味着即使模型在任务上表现很好，它也可能缺乏"对话意识"——不知道如何在多轮交互中自然地跟进。

相关链接

arXiv 原文