Nvidia Groq 3 LPU: 加速AI推理任务 ⭐⭐⭐⭐⭐

来源: IEEE Spectrum | 发布时间: 2026年3月

摘要

Nvidia在GTC 2026大会上发布专为推理设计的Groq 3 LPU（语言处理单元），这是GPU巨头首次推出专门用于推理的芯片。文章分析了推理芯片市场的竞争格局和技术特点。

核心亮点

SRAM vs HBM架构：Groq 3 LPU使用集成在处理器内的SRAM而非HBM，实现150 TB/s内存带宽（是Rubin GPU的7倍）
线性数据流：数据直接流经SRAM，无需像多核GPU那样在芯片和内存之间来回传输
推理vs训练：训练需要高吞吐量（可数周），推理需要低延迟（用户期望快速响应）
推理分解趋势：prefill（处理提示）和decode（生成输出）分开处理，发挥不同芯片优势
市场竞争激烈：d-matrix、Etched、RainAI、EnCharge等初创公司探索不同架构
$20B收购价：Nvidia收购Groq IP体现推理市场的战略重要性

Rubin GPU vs Groq 3 LPU 对比

规格	Rubin GPU	Groq 3 LPU
内存	288 GB HBM	500 MB SRAM
算力	50 petaFLOPS (4-bit)	1.2 petaFLOPS (8-bit)
内存带宽	22 TB/s	150 TB/s

核心洞察："推理市场的爆发导致专用芯片架构的多元化竞争。训练模型只是开始，真正释放AI价值需要高效、低延迟的推理能力，这推动了整个芯片行业的创新。"

Nvidia AI芯片推理优化硬件

→ 阅读原文