User Turn Generation as a Probe of Interaction Awareness in Language Models
AILLMInteraction AwarenessBenchmark
评分: ★★★★☆ (4/5)
核心发现
标准LLM基准测试只评估"助手轮"——模型生成对输入的响应。但还有一个未测量的维度:模型是否编码了对"助手响应之后会发生什么"的 awareness。作者提出 user-turn generation 作为探测这个 gap 的方法。
关键洞察
- 交互意识与任务准确性解耦:在Qwen3.5家族中,GSM8K准确率从41%(0.8B)扩展到96.8%(397B-A17B),但确定性生成下的真实跟进率接近零
- 更高温度采样揭示潜在意识:温度采样显示交互意识是潜在的,跟进率达到22%
- 协作导向的后训练有效:在Qwen3.5-2B上训练协作导向数据后,跟进率增加
- 跨模型验证:在11个开源LLM(Qwen3.5, gpt-oss, GLM)和5个数据集(数学推理、指令跟随、对话)上验证
意义
User-turn generation 捕获了当前仅基于助手轮的基准测试无法探索的 LLM 行为维度——交互意识。这意味着即使模型在任务上表现很好,它也可能缺乏"对话意识"——不知道如何在多轮交互中自然地跟进。