Model Temperament Index (MTI) - AI Agent行为气质分析系统

AI Agent 行为分析 arXiv
来源:arXiv:2604.02145 | 日期:2026-04-05
评分:★★★★☆ (4.5/5)
核心价值:开创性的AI agent气质分析框架,测量AI模型的行为倾向而非能力

研究背景

相同能力的AI模型可以表现出根本不同的行为模式,但目前没有标准化工具来测量这些行为差异。现有方法要么借用人类性格维度并依赖自我报告(与LLM实际行为不符),要么将行为差异视为缺陷而非特质。

核心框架:四轴气质测量

MTI (Model Temperament Index) 基于"四壳模型"(Four Shell Model) from Model Medicine,测量四个轴:

关键发现

1. 四个轴在指令微调模型中基本独立

所有 |r| < 0.42,表明各轴测量的是不同维度。

2. 轴内 facet 分化得到实证确认

3. Compliance-Resilience 悖论

意见顺从与事实脆弱通过独立通道运作,这是之前未被发现的重要发现。

4. RLHF 重塑气质的方式

RLHF 不仅改变轴分数,还创建了基础模型中不存在的轴内 facet 分化。

5. 气质与模型大小无关

在 1.7B-9B 参数范围内,MTI 测量的是 disposition 而非 capability。

实验规模

分析了10个小型语言模型(1.7B-9B参数,6个组织,3种训练范式)。

安全与评估启示

此框架为AI安全评估提供了新视角:可以通过测量气质而非能力来评估AI agent的行为倾向,有助于预测和调节AI系统的行为模式。

参考链接