An Interview with Nvidia CEO Jensen Huang About Accelerated Computing

⭐⭐⭐⭐⭐ | Stratechery Interview | Ben Thompson | March 2026

NVIDIA Jensen Huang GTC 2026 加速计算 AI硬件

            核心洞察: "Accelerated computing is a full stack problem... We realized that accelerated computing was a full stack problem, you have to understand the application to accelerate it."
        

关于本文

这是Stratechery对Nvidia CEO Jensen Huang的第五次专访，发生在GTC 2026主题演讲结束后。访谈涵盖Nvidia的历史、战略转变、AI未来等重要话题。

CUDA 20年与全栈战略

为什么现在重讲CUDA故事？

Jensen在GTC 2026主题演讲中花费大量时间讲述CUDA历史，原因在于：

Nvidia正在进入大量新行业
AI将使用为人类开发的工具：Excel、Photoshop、逻辑合成工具
这些工具需要"超级加速"才能被AI使用
因为AI的速度远超人类

全栈方法的重要性

"We realized that accelerated computing was a full stack problem, you have to understand the application to accelerate it."

Nvidia必须：

理解应用程序
建立开发者生态系统
精通算法开发
重写为CPU开发的算法以适配GPU

AI工厂与投资规模

千亿美元级别的AI工厂

Jensen描述了AI工厂的规模：

一个千兆瓦工厂投资约500-600亿美元
其中约150-170亿是基础设施：土地、电力、建筑外壳
其余是计算、网络和存储
Nvidia不仅帮客户造芯片，还帮建系统和AI工厂

CPU的回归

代理时代CPU的新角色

曾经被认为会被淘汰的CPU重新变得重要：

代理需要使用工具，而工具是为CPU设计的
两种主要工具类型：
- 数据中心：主要是SQL、数据库相关
- 个人电脑：非结构化、多模态工具使用
AI需要学习 unstructured tool use（非结构化工具使用）

Vera CPU的定位

过去十年CPU为超大规模云设计，目标是通过核心数最多化来实现盈利。Vera CPU不同：

为代理AI workloads 专门设计
不是简单追求更多核心
关注实际性能而非可出租性

推理与编码的突破

2025年的关键变化

Jensen认为2025年是AI应用开始产生真正经济价值的转折点：

推理改进：AI可以在回答前"思考"
幻觉减少：通过推理、反思、检索、搜索来 grounding
工具使用：编码是完美案例

编码的特殊性

"Coding is not really the same modality as language... you can't generate code just one token at a time, you have to reflect on the chunk of code."

代码必须能编译运行
需要基于执行 grounding，而非统计可能性
工程师可以描述规格和架构，而非直接写代码
Nvidia工程师现在100%使用编码代理

模型架构的未来

Transformer的局限与混合架构

Transformer的attention能力按二次方扩展
长对话记忆问题：KV cache会变成垃圾
Nemotron 3：Transformer + Mamba（状态空间模型）的混合架构
几何感知模型：利用自然对称性
离散信息和连续信息需要不同的生成方式

关键收获

全栈是护城河：理解应用层是Nvidia的核心竞争力
CPU未死：代理时代CPU反而更重要
混合架构：Transformer + Mamba是未来方向
工具即一切：AI需要能够使用人类创造的所有工具
编码代理已成熟：这是AI产生经济价值的首个大规模应用

原文 →