← 返回首页

🚀 Holotron-12B: 高吞吐量计算机使用代理

计算机代理 Nemotron H Company ⭐⭐⭐⭐⭐ 5星

来源: Hugging Face Blog | 日期: 2026-03-17

核心发现

Holotron-12B是一款高吞吐量计算机使用多模态模型,基于NVIDIA Nemotron-Nano-2 VL模型构建,在WebVoyager基准测试中达到80.5%准确率,单H100 GPU吞吐量比Holo2-8B高2倍以上。

为什么构建Holotron-12B

当前大多数多模态模型主要针对静态视觉或遵循指令进行优化。Holotron-12B有不同目标:作为计算机使用代理的策略模型,必须在交互环境中感知、决策和高效行动。

  • 在生产环境中高效且有效扩展
  • 处理长上下文(多图像)
  • 在代理基准测试中表现良好

混合SSM架构的高吞吐量推理

Holotron-12B的显著推理效率提升得益于其基础Nemotron架构,该架构利用混合状态空间模型(SSM)和注意力机制。

性能指标

WebVoyager准确率 80.5% (从35.1%提升)
最大并发100时Token吞吐量 8.9k tokens/s
相比Holo2-8B吞吐量提升 >2x
GPU 单H100

SSM vs 传统注意力

  • 传统注意力:存储每个token和层的K和V激活(KV Cache)
  • SSM:线性递归模型,每层每序列仅存储恒定状态
  • SSM避免了与完整注意力机制相关的二次计算成本
  • 特别有利于涉及多图像和长交互历史的代理工作负载

训练与评估

  • 从NVIDIA Nemotron-Nano-12B-v2-VL-BF16开始
  • 在H Company专有的本地化和导航数据混合物上进行监督微调
  • 最终检查点训练了约140亿token

基准测试结果

代理基准

  • WebVoyager: 35.1% → 80.5% (超越Holo2-8B)

本地化基准

  • OS-World-G、GroundUI、WebClick均有显著提升

下一步:Nemotron 3 Omni

基于Holotron-12B的成功,H Company正准备对下一代多模态模型进行后训练。利用Nemotron 3系列的增强型混合SSM-Attention和MoE架构基础,目标是实现推理能力和多模态精度的更大飞跃。

资源链接