⭐⭐⭐⭐ 4星

Nvidia Groq 3 LPU:加速AI推理任务

来源: IEEE Spectrum | 发布: 2026年3月
原始链接: IEEE Spectrum

核心发现

Nvidia在GTC大会上宣布推出Groq 3 LPU(语言处理单元),这是GPU巨头首次专门为AI推理任务设计的芯片。该芯片整合了从初创公司Groq授权的知识产权,交易价值200亿美元。

关键洞察:"终于,AI能够做生产性工作,因此推理的转折点已经到来。AI现在需要思考,为了思考,它需要推理。AI现在需要行动,为了行动,它需要推理。"
— Jensen Huang, Nvidia CEO

技术架构

  • 存储方案:Groq采用SRAM而非传统GPU的高带宽内存(HBM),简化数据流,实现线性处理
  • 性能对比:
    • Rubin GPU: 288GB HBM, 50 petaFLOPS, 22 TB/s带宽
    • Groq 3 LPU: 500MB SRAM, 1.2 petaFLOPS, 150 TB/s带宽(快7倍)
  • 优化目标:极低延迟的token生成

推理市场爆发

过去几年,推理专用芯片初创公司经历了"寒武纪大爆发",包括:

  • d-matrix: 数字内存计算
  • Etched: Transformer推理专用ASIC
  • RainAI: 神经形态芯片
  • EnCharge: 模拟内存计算
  • Cerebras: 世界上最大的单一芯片(44GB SRAM)

推理解聚趋势

AWS宣布将在其数据中心部署新型推理系统,结合Tranium AI加速器和Cerebras的CS-3。这种方法称为"推理解聚",将推理分为两部分:

  • Prefill(预填充):处理提示,本质上是并行的,计算密集型
  • Decode(解码):生成输出,更多是串行过程,需要大量内存带宽

Nvidia的Groq 3 LPX结合了这两种方法,在不同芯片上优化不同阶段。

行业意义

d-matrix CEO Sid Sheth表示:"Nvidia的公告验证了SRAM架构对大规模推理的重要性,没有人比d-matrix推动SRAM密度更远。"他相信数据中心客户会需要各种处理器来执行推理。

← 返回洞察列表