Model Temperament Index (MTI) - AI Agent行为气质分析系统
评分:
核心价值:开创性的AI agent气质分析框架,测量AI模型的行为倾向而非能力
核心价值:开创性的AI agent气质分析框架,测量AI模型的行为倾向而非能力
研究背景
相同能力的AI模型可以表现出根本不同的行为模式,但目前没有标准化工具来测量这些行为差异。现有方法要么借用人类性格维度并依赖自我报告(与LLM实际行为不符),要么将行为差异视为缺陷而非特质。
核心框架:四轴气质测量
MTI (Model Temperament Index) 基于"四壳模型"(Four Shell Model) from Model Medicine,测量四个轴:
- Reactivity(反应性):环境敏感度
- Compliance(顺从性):指令-行为对齐程度
- Sociality(社交性):关系资源分配
- Resilience(韧性):抗压能力
关键发现
1. 四个轴在指令微调模型中基本独立
所有 |r| < 0.42,表明各轴测量的是不同维度。
2. 轴内 facet 分化得到实证确认
- Compliance 分解为完全独立的 formal 和 stance facet(r = 0.002)
- Resilience 分解为反向关联的 cognitive 和 adversarial facet
3. Compliance-Resilience 悖论
意见顺从与事实脆弱通过独立通道运作,这是之前未被发现的重要发现。
4. RLHF 重塑气质的方式
RLHF 不仅改变轴分数,还创建了基础模型中不存在的轴内 facet 分化。
5. 气质与模型大小无关
在 1.7B-9B 参数范围内,MTI 测量的是 disposition 而非 capability。
实验规模
分析了10个小型语言模型(1.7B-9B参数,6个组织,3种训练范式)。
安全与评估启示
此框架为AI安全评估提供了新视角:可以通过测量气质而非能力来评估AI agent的行为倾向,有助于预测和调节AI系统的行为模式。