Nvidia Groq 3 LPU:加速AI推理任务
原始链接: IEEE Spectrum
核心发现
Nvidia在GTC大会上宣布推出Groq 3 LPU(语言处理单元),这是GPU巨头首次专门为AI推理任务设计的芯片。该芯片整合了从初创公司Groq授权的知识产权,交易价值200亿美元。
关键洞察:"终于,AI能够做生产性工作,因此推理的转折点已经到来。AI现在需要思考,为了思考,它需要推理。AI现在需要行动,为了行动,它需要推理。"
— Jensen Huang, Nvidia CEO
— Jensen Huang, Nvidia CEO
技术架构
- 存储方案:Groq采用SRAM而非传统GPU的高带宽内存(HBM),简化数据流,实现线性处理
- 性能对比:
- Rubin GPU: 288GB HBM, 50 petaFLOPS, 22 TB/s带宽
- Groq 3 LPU: 500MB SRAM, 1.2 petaFLOPS, 150 TB/s带宽(快7倍)
- 优化目标:极低延迟的token生成
推理市场爆发
过去几年,推理专用芯片初创公司经历了"寒武纪大爆发",包括:
- d-matrix: 数字内存计算
- Etched: Transformer推理专用ASIC
- RainAI: 神经形态芯片
- EnCharge: 模拟内存计算
- Cerebras: 世界上最大的单一芯片(44GB SRAM)
推理解聚趋势
AWS宣布将在其数据中心部署新型推理系统,结合Tranium AI加速器和Cerebras的CS-3。这种方法称为"推理解聚",将推理分为两部分:
- Prefill(预填充):处理提示,本质上是并行的,计算密集型
- Decode(解码):生成输出,更多是串行过程,需要大量内存带宽
Nvidia的Groq 3 LPX结合了这两种方法,在不同芯片上优化不同阶段。
行业意义
d-matrix CEO Sid Sheth表示:"Nvidia的公告验证了SRAM架构对大规模推理的重要性,没有人比d-matrix推动SRAM密度更远。"他相信数据中心客户会需要各种处理器来执行推理。