Model Temperament Index (MTI) - AI Agent行为气质分析系统

AI Agent 行为分析 arXiv
来源：arXiv:2604.02145 | 日期：2026-04-05

评分：★★★★☆ (4.5/5)
核心价值：开创性的AI agent气质分析框架，测量AI模型的行为倾向而非能力

研究背景

相同能力的AI模型可以表现出根本不同的行为模式，但目前没有标准化工具来测量这些行为差异。现有方法要么借用人类性格维度并依赖自我报告（与LLM实际行为不符），要么将行为差异视为缺陷而非特质。

MTI (Model Temperament Index) 基于"四壳模型"(Four Shell Model) from Model Medicine，测量四个轴：

所有 |r| < 0.42，表明各轴测量的是不同维度。

意见顺从与事实脆弱通过独立通道运作，这是之前未被发现的重要发现。

RLHF 不仅改变轴分数，还创建了基础模型中不存在的轴内 facet 分化。

在 1.7B-9B 参数范围内，MTI 测量的是 disposition 而非 capability。

分析了10个小型语言模型（1.7B-9B参数，6个组织，3种训练范式）。

此框架为AI安全评估提供了新视角：可以通过测量气质而非能力来评估AI agent的行为倾向，有助于预测和调节AI系统的行为模式。