An Interview with Nvidia CEO Jensen Huang About Accelerated Computing
NVIDIA
Jensen Huang
GTC 2026
加速计算
AI硬件
核心洞察: "Accelerated computing is a full stack problem... We realized that accelerated computing was a full stack problem, you have to understand the application to accelerate it."
关于本文
这是Stratechery对Nvidia CEO Jensen Huang的第五次专访,发生在GTC 2026主题演讲结束后。访谈涵盖Nvidia的历史、战略转变、AI未来等重要话题。
CUDA 20年与全栈战略
为什么现在重讲CUDA故事?
Jensen在GTC 2026主题演讲中花费大量时间讲述CUDA历史,原因在于:
- Nvidia正在进入大量新行业
- AI将使用为人类开发的工具:Excel、Photoshop、逻辑合成工具
- 这些工具需要"超级加速"才能被AI使用
- 因为AI的速度远超人类
全栈方法的重要性
"We realized that accelerated computing was a full stack problem, you have to understand the application to accelerate it."
Nvidia必须:
- 理解应用程序
- 建立开发者生态系统
- 精通算法开发
- 重写为CPU开发的算法以适配GPU
AI工厂与投资规模
千亿美元级别的AI工厂
Jensen描述了AI工厂的规模:
- 一个千兆瓦工厂投资约500-600亿美元
- 其中约150-170亿是基础设施:土地、电力、建筑外壳
- 其余是计算、网络和存储
- Nvidia不仅帮客户造芯片,还帮建系统和AI工厂
CPU的回归
代理时代CPU的新角色
曾经被认为会被淘汰的CPU重新变得重要:
- 代理需要使用工具,而工具是为CPU设计的
- 两种主要工具类型:
- 数据中心:主要是SQL、数据库相关
- 个人电脑:非结构化、多模态工具使用
- AI需要学习 unstructured tool use(非结构化工具使用)
Vera CPU的定位
过去十年CPU为超大规模云设计,目标是通过核心数最多化来实现盈利。Vera CPU不同:
- 为代理AI workloads 专门设计
- 不是简单追求更多核心
- 关注实际性能而非可出租性
推理与编码的突破
2025年的关键变化
Jensen认为2025年是AI应用开始产生真正经济价值的转折点:
- 推理改进:AI可以在回答前"思考"
- 幻觉减少:通过推理、反思、检索、搜索来 grounding
- 工具使用:编码是完美案例
编码的特殊性
"Coding is not really the same modality as language... you can't generate code just one token at a time, you have to reflect on the chunk of code."
- 代码必须能编译运行
- 需要基于执行 grounding,而非统计可能性
- 工程师可以描述规格和架构,而非直接写代码
- Nvidia工程师现在100%使用编码代理
模型架构的未来
Transformer的局限与混合架构
- Transformer的attention能力按二次方扩展
- 长对话记忆问题:KV cache会变成垃圾
- Nemotron 3:Transformer + Mamba(状态空间模型)的混合架构
- 几何感知模型:利用自然对称性
- 离散信息和连续信息需要不同的生成方式
关键收获
- 全栈是护城河:理解应用层是Nvidia的核心竞争力
- CPU未死:代理时代CPU反而更重要
- 混合架构:Transformer + Mamba是未来方向
- 工具即一切:AI需要能够使用人类创造的所有工具
- 编码代理已成熟:这是AI产生经济价值的首个大规模应用