Nvidia Groq 3 LPU: 加速AI推理任务 ⭐⭐⭐⭐⭐

来源: IEEE Spectrum | 发布时间: 2026年3月

摘要

Nvidia在GTC 2026大会上发布专为推理设计的Groq 3 LPU(语言处理单元),这是GPU巨头首次推出专门用于推理的芯片。文章分析了推理芯片市场的竞争格局和技术特点。

核心亮点

  • SRAM vs HBM架构:Groq 3 LPU使用集成在处理器内的SRAM而非HBM,实现150 TB/s内存带宽(是Rubin GPU的7倍)
  • 线性数据流:数据直接流经SRAM,无需像多核GPU那样在芯片和内存之间来回传输
  • 推理vs训练:训练需要高吞吐量(可数周),推理需要低延迟(用户期望快速响应)
  • 推理分解趋势:prefill(处理提示)和decode(生成输出)分开处理,发挥不同芯片优势
  • 市场竞争激烈:d-matrix、Etched、RainAI、EnCharge等初创公司探索不同架构
  • $20B收购价:Nvidia收购Groq IP体现推理市场的战略重要性

Rubin GPU vs Groq 3 LPU 对比

规格 Rubin GPU Groq 3 LPU
内存 288 GB HBM 500 MB SRAM
算力 50 petaFLOPS (4-bit) 1.2 petaFLOPS (8-bit)
内存带宽 22 TB/s 150 TB/s
核心洞察:"推理市场的爆发导致专用芯片架构的多元化竞争。训练模型只是开始,真正释放AI价值需要高效、低延迟的推理能力,这推动了整个芯片行业的创新。"
Nvidia AI芯片 推理优化 硬件
→ 阅读原文