⭐⭐⭐⭐ 4星

Nvidia Groq 3 LPU：加速AI推理任务

来源: IEEE Spectrum | 发布: 2026年3月

原始链接: IEEE Spectrum

核心发现

Nvidia在GTC大会上宣布推出Groq 3 LPU（语言处理单元），这是GPU巨头首次专门为AI推理任务设计的芯片。该芯片整合了从初创公司Groq授权的知识产权，交易价值200亿美元。

            关键洞察："终于，AI能够做生产性工作，因此推理的转折点已经到来。AI现在需要思考，为了思考，它需要推理。AI现在需要行动，为了行动，它需要推理。"
            
— Jensen Huang, Nvidia CEO

存储方案：Groq采用SRAM而非传统GPU的高带宽内存(HBM)，简化数据流，实现线性处理
性能对比：
- Rubin GPU: 288GB HBM, 50 petaFLOPS, 22 TB/s带宽
- Groq 3 LPU: 500MB SRAM, 1.2 petaFLOPS, 150 TB/s带宽（快7倍）
优化目标：极低延迟的token生成

过去几年，推理专用芯片初创公司经历了"寒武纪大爆发"，包括：

AWS宣布将在其数据中心部署新型推理系统，结合Tranium AI加速器和Cerebras的CS-3。这种方法称为"推理解聚"，将推理分为两部分：

Nvidia的Groq 3 LPX结合了这两种方法，在不同芯片上优化不同阶段。

d-matrix CEO Sid Sheth表示："Nvidia的公告验证了SRAM架构对大规模推理的重要性，没有人比d-matrix推动SRAM密度更远。"他相信数据中心客户会需要各种处理器来执行推理。