🚀 Holotron-12B: 高吞吐量计算机使用代理
核心发现
Holotron-12B是一款高吞吐量计算机使用多模态模型,基于NVIDIA Nemotron-Nano-2 VL模型构建,在WebVoyager基准测试中达到80.5%准确率,单H100 GPU吞吐量比Holo2-8B高2倍以上。
为什么构建Holotron-12B
当前大多数多模态模型主要针对静态视觉或遵循指令进行优化。Holotron-12B有不同目标:作为计算机使用代理的策略模型,必须在交互环境中感知、决策和高效行动。
- 在生产环境中高效且有效扩展
- 处理长上下文(多图像)
- 在代理基准测试中表现良好
混合SSM架构的高吞吐量推理
Holotron-12B的显著推理效率提升得益于其基础Nemotron架构,该架构利用混合状态空间模型(SSM)和注意力机制。
性能指标
WebVoyager准确率
80.5% (从35.1%提升)
最大并发100时Token吞吐量
8.9k tokens/s
相比Holo2-8B吞吐量提升
>2x
GPU
单H100
SSM vs 传统注意力
- 传统注意力:存储每个token和层的K和V激活(KV Cache)
- SSM:线性递归模型,每层每序列仅存储恒定状态
- SSM避免了与完整注意力机制相关的二次计算成本
- 特别有利于涉及多图像和长交互历史的代理工作负载
训练与评估
- 从NVIDIA Nemotron-Nano-12B-v2-VL-BF16开始
- 在H Company专有的本地化和导航数据混合物上进行监督微调
- 最终检查点训练了约140亿token
基准测试结果
代理基准
- WebVoyager: 35.1% → 80.5% (超越Holo2-8B)
本地化基准
- OS-World-G、GroundUI、WebClick均有显著提升
下一步:Nemotron 3 Omni
基于Holotron-12B的成功,H Company正准备对下一代多模态模型进行后训练。利用Nemotron 3系列的增强型混合SSM-Attention和MoE架构基础,目标是实现推理能力和多模态精度的更大飞跃。