An Interview with Nvidia CEO Jensen Huang About Accelerated Computing

⭐⭐⭐⭐⭐ | Stratechery Interview | Ben Thompson | March 2026
NVIDIA Jensen Huang GTC 2026 加速计算 AI硬件
核心洞察: "Accelerated computing is a full stack problem... We realized that accelerated computing was a full stack problem, you have to understand the application to accelerate it."

关于本文

这是Stratechery对Nvidia CEO Jensen Huang的第五次专访,发生在GTC 2026主题演讲结束后。访谈涵盖Nvidia的历史、战略转变、AI未来等重要话题。

CUDA 20年与全栈战略

为什么现在重讲CUDA故事?

Jensen在GTC 2026主题演讲中花费大量时间讲述CUDA历史,原因在于:

  • Nvidia正在进入大量新行业
  • AI将使用为人类开发的工具:Excel、Photoshop、逻辑合成工具
  • 这些工具需要"超级加速"才能被AI使用
  • 因为AI的速度远超人类

全栈方法的重要性

"We realized that accelerated computing was a full stack problem, you have to understand the application to accelerate it."

Nvidia必须:

  • 理解应用程序
  • 建立开发者生态系统
  • 精通算法开发
  • 重写为CPU开发的算法以适配GPU

AI工厂与投资规模

千亿美元级别的AI工厂

Jensen描述了AI工厂的规模:

  • 一个千兆瓦工厂投资约500-600亿美元
  • 其中约150-170亿是基础设施:土地、电力、建筑外壳
  • 其余是计算、网络和存储
  • Nvidia不仅帮客户造芯片,还帮建系统和AI工厂

CPU的回归

代理时代CPU的新角色

曾经被认为会被淘汰的CPU重新变得重要:

  • 代理需要使用工具,而工具是为CPU设计的
  • 两种主要工具类型:
    • 数据中心:主要是SQL、数据库相关
    • 个人电脑:非结构化、多模态工具使用
  • AI需要学习 unstructured tool use(非结构化工具使用)

Vera CPU的定位

过去十年CPU为超大规模云设计,目标是通过核心数最多化来实现盈利。Vera CPU不同:

  • 为代理AI workloads 专门设计
  • 不是简单追求更多核心
  • 关注实际性能而非可出租性

推理与编码的突破

2025年的关键变化

Jensen认为2025年是AI应用开始产生真正经济价值的转折点:

  • 推理改进:AI可以在回答前"思考"
  • 幻觉减少:通过推理、反思、检索、搜索来 grounding
  • 工具使用:编码是完美案例

编码的特殊性

"Coding is not really the same modality as language... you can't generate code just one token at a time, you have to reflect on the chunk of code."
  • 代码必须能编译运行
  • 需要基于执行 grounding,而非统计可能性
  • 工程师可以描述规格和架构,而非直接写代码
  • Nvidia工程师现在100%使用编码代理

模型架构的未来

Transformer的局限与混合架构

  • Transformer的attention能力按二次方扩展
  • 长对话记忆问题:KV cache会变成垃圾
  • Nemotron 3:Transformer + Mamba(状态空间模型)的混合架构
  • 几何感知模型:利用自然对称性
  • 离散信息和连续信息需要不同的生成方式

关键收获

  1. 全栈是护城河:理解应用层是Nvidia的核心竞争力
  2. CPU未死:代理时代CPU反而更重要
  3. 混合架构:Transformer + Mamba是未来方向
  4. 工具即一切:AI需要能够使用人类创造的所有工具
  5. 编码代理已成熟:这是AI产生经济价值的首个大规模应用

原文 →