李建忠对话CUDA之父Ian Buck：复盘英伟达20年护城河，揭秘AI生态平台密码

奇点智能研究院

2026-04-10

作者 | 李建忠

出品丨AI 科技大本营（ID：rgznai100）

2026 年英伟达 GTC 期间，奇点智能研究院院长、2026 奇点智能技术大会（SITS）发起人李建忠在硅谷采访了英伟达 CUDA 奠基者、被称为“CUDA 之父”的 Ian Buck。作为英伟达超大规模与高性能计算副总裁，Ian Buck 不仅深度参与了 CUDA 的创建，也长期处于 NVIDIA 平台演进的核心位置，见证并推动了这家公司从一家 GPU 厂商走向全球 AI 生态平台领跑者的全过程。

这场对话围绕 CUDA 20 年的演进逻辑、AI 工厂、异构计算、开发者生态、软硬件协同设计，以及下一代基础设施的开放性与竞争格局，Ian Buck 在这场访谈中系统回应了外界最关心的一系列问题。这场采访最大的看点，不只是 Ian Buck 对英伟达AI工厂最新的技术与产品的阐述，而在于他把英伟达如何从 CUDA 开始、把芯片、系统、软件和开发者不断拧成一个统一生态平台的底层逻辑。

外界往往把英伟达的优势理解为芯片领先，但从 CUDA、GPU、LPU、CPU，到 NVLink、交换机、软件栈和开发者生态，英伟达最大的护城河，早已不是单点产品，而是一整套围绕训练、推理与 AI 工厂组织起来的生态级平台的能力。

问题：您是否可以谈谈此次 GTC 大会新发布的技术和产品、以及令您印象最深刻的部分？

Ian Buck：我最大的感受是， AI 基础设施正在进入一个全新的阶段。黄仁勋在主题演讲里已经展示了这一点：NVIDIA 现在同时推进七款芯片和五种机架架构，目标是服务 AI 工厂，以前所未有的规模完成训练与推理，把下一代智能体 AI 推向市场。

我最关注的是，LPU 被正式纳入整个体系。NVIDIA Groq 3 LPU 可以被理解为 Vera Rubin 的增强组件。LPU 基于 SRAM，能够依靠极快的 SRAM 完成浮点计算。但它的限制也非常明确，一旦把它用于拥有超长上下文、面向实时推理的超大模型，问题就会暴露出来。仅靠 LPU 去运行一个万亿参数模型，需要几十个机架。这样的方案也许可以带来极高的 Token 速率，但在成本和基础设施效率上都无法支撑真正的大规模部署。

我们的解决办法不是让 LPU单独承担任务，而是让它和Vera Rubin 配合工作。现在，随着新的Groq 工程师加入 NVIDIA，我们正在把 GPU 和 LPU 的优势整合到同一个系统里。原本需要几十个 LPU 机架完成的工作，现在两个机架就可以覆盖。所有 Token 的注意力计算可以交给 GPU，模型每一层的专家部分的矩阵计算则交给 LPU。这正是让下一代模型落地所面临的挑战之一。

当然，AI 市场的大部分需求——聊天机器人、图像生成、视频处理、推荐系统——仍然会主要运行在 Vera Rubin 上。LPU 并不会为这些场景带来额外收益，Rubin 本身已经是非常成熟的 AI 平台。LPU 真正发挥作用的，是下一代智能体所需要的工作负载：万亿参数模型、几十万 Token 级上下文，以及每秒千 Token 级别的服务速度。到了这个级别，Vera Rubin 与 LPU 的组合才变得关键。

我今天也带来了 Vera 模块。这就是 Vera CPU，和你们现在看到的系统里使用的是同一颗 CPU。在 AI 智能体时代，我们需要的是一种新的 CPU：既要有极强的单核性能，也要有很多核、且让每个核都能满性能运行。只有这样，它才能承担工具调用、代码编译、浏览器渲染和 SQL 查询等任务，让 GPU 去调度 CPU，在训练和推理时共同交付完整的 AI 体验。NVIDIA 会把 Vera 作为独立 CPU 推向市场，而且只提供这一种 SKU。它本身就是参考架构，合作伙伴可以在此基础上继续构建自己的系统。我很乐意聊这些产品，以及让这一切得以运转的软件系统。

问题：今年是 CUDA 诞生 20 周年。2006 年您带领团队发布 CUDA 时，您是否预料到它 20 年后会发展到今天这个规模？CUDA 取得成功的密码是什么？

Ian Buck：CUDA 走到今天，确实是一段非常特别的历程。今年 11 月，距离我们第一次发布CUDA 正好满 20 年。我 2004 年加入 NVIDIA，就是为了做这件事。第一个版本花了两年时间才真正完成。更早的时候，我在斯坦福做博士研究，方向就是如何把 GPU——当时还只是图形处理器——用于通用计算。那篇博士论文的核心，其实就是一个问题：什么样的编程模型才是对的？怎样才能让程序员不再用两线程、两核心、四核心的方式思考，而是真正进入 1 万线程级别的并行思维？

人类并不天然适合这样思考。我们的思维方式更接近线性。但 GPU 架构所展示的，是一种完全不同的计算方式。它并不是用来解决所有问题，而是专门用来加速那些真正具备万级、十万级，乃至百万级并行潜力的部分。真正的难点，不只是硬件本身，而是怎么让程序员形成这种思维，并把它清楚地表达出来。

CUDA 之所以能够成功，一个决定性的原因是：我们没有试图重新发明一门全新的编程语言。那当然是可以做的，而且从学术角度看也很自然。但当我们真正和客户、和那些有实际计算问题的人交流时，得到的反馈很明确：他们需要的不是一套新的语言体系，而是一种能提高开发效率的工具。所谓开发者生产力，本质上就是能利用现有技术，而不是为了使用它被迫重学一整套新的语言和概念。

所以 CUDA 最关键的一点，其实是 C语言。它建立在 C 语言之上。我们的思路是尽量少改 C语言，只在真正有价值的地方做扩展，让程序在最需要性能的部分跑上 1 万个核心。最初的构想就是这样。后来，CUDA 扩展到C++ 、Python， Java、和 Fortran，但一个真正可行的编程模型仍然是它最核心的东西。

另一件同样关键的事，是始终确保兼容性。一旦开发者进入 CUDA 体系，从 GeForce 8800 到今天的 Vera Rubin，只要他们运行在支持CUDA的GPU上，那么之后的每一代硬件都会让它变得更快。这就是我所说的一种新的“摩尔定律”。变快的不只是硅片和晶体管，而是整个技术栈。CUDA 的每一层都在持续变快，开发者的代码也会沿着同一条指数曲线变快。即使CUDA 1.0 时代写下的代码，今天放到 Vera Rubin 上，性能也会得到百万倍的提升。

当然，随着时间推移，我们不断加入新的能力、新的特性、新的技术和新的库，但最初对开发者的承诺从未改变：给他们一个容易理解、容易使用的编程环境，而不是逼他们接受一门陌生的新语言；只在真正能创造价值的地方做扩展；同时始终把向后兼容和向前兼容放在心上。你在 GTC 现场就能直观地看到这种承诺如何兑现：Volta 比上一代更快，Ampere 更快，Hopper 更快，Blackwell 更快，Rubin 还会继续更快。

最后也非常重要的是，今天的 CUDA 不只是一个编程平台，而是一个庞大的库和生态平台。我们现在已经有超过 1000 个 CUDA-X 库和模型。其中有做电子结构理论的模型，比如 cuEST；有用于 SQL 查询的cuDF；有用于向量搜索的 cuVS；也有像 cuEquivariance 这样帮助 AI 模型预测蛋白质结构的工具。我们还有面向量子计算的库，比如 cuTensor 和 cuStateVec，用于量子比特纠错、量子系统模拟。我们使用量子重新定义了计算机科学，让计算机科学家今天就可以借助 GPU 去模拟未来生产级量子计算机的行为。这些库非常多，而且并不都是 NVIDIA 自己开发的。事实上，其中很多都来自开发者社区本身。

对我来说，这里面一直有件很简单、但也很让人谦卑的事：最开始，我做的不过是在 C 语言里加了几个关键字。我的老板支持我这么做，也支持我组建团队把它做出来。黄仁勋当年做出的一个非常伟大的决定是：从我们 2006 年谈到的第一代 GPU 开始，要把 CUDA 放进每一块 GPU。这个决定花费了公司数十亿美元。我们前 10 年都没从这件事上赚到钱，但他从来没有放弃。

问题：今天 NVIDIA 似乎在加速计算领域占据主导地位。从长期看，未来可能出现什么新的力量，对 CUDA 构成真正的挑战，甚至成为替代品？

Ian Buck：我不喜欢“主导地位”这个词，这从来不是我们的目标，也不是重点。我们的重点始终是帮助开发者。这些芯片和机架本身不会自动做事，它们只是等待开发者来决定如何使用。

如果在 GTC 现场走一圈，会看到很多不同类型的开发者。有些开发者希望对图形处理器进行底层编程，从头开始编写 CUDA 代码；有人想模拟一种新型合金的分子结构，以预测其性能，所以他们会直接调用某个程序库、某款软件，或者某个 ISV 的产品；还有些人只是想跑一个预训练 AI 模型，例如做一个 chatbot，去理解等离子体物理学领域过去 50 年的论文。

我们的目标，是给开发者打造一个平台，帮助他们提升工作效率，实现能力升级。从而解决科研问题、将服务推向市场，或者在某个垂直领域做出被全球用户使用的软件。至于最佳切入点到底是什么——是从一个 CUDA 库开始，还是从 GitHub 或开源生态里的库开始，还是深入直接操作 CUDA 底层——这是一个开放平台，由开发者自己决定。我明天也可以做一个新操作系统，区别于Linux 或 iOS，再为它办一场发布会。但如果没有开发者，它就不是一个平台。平台从来都是由开发者定义的。

开发者并不需要非用 CUDA 不可。他们在我们的平台上可以选择自己想用的方式。只要开发者有机会做事情，我们就会保持开放，让他们去编程、去编译、去链接、去做推理、去做训练。我们欢迎各种不同的计算形态。开发者也不需要锁定在整套方案上。你可以只买 Vera，可以只用 Vera Rubin，也可以不买完整 NVL72，只用一张 PCIe 卡，都可以。你也可以让智能体的工作负载运行在别家的 CPU 上，替代 Vera Rubin，也没问题。

实际上，我们甚至把NVLink 也开放出来了。通过NVLink Fusion，其他 CPU 可以把 NVLink 集成进去，直接和 NVIDIA 的GPU 通信。我们也把 NVLink 向其他 XPU 开放，它们可以接入 NVLink 的 IP 和芯片，利用 NVLink 交换机的能力。整个技术栈的每一层，我们都在尽量开放。只要有人能在其中某一层创造价值，不管是面向自己的业务、自己的软件，还是要解决的问题，我们都欢迎。我们打造的是开放平台，而非强迫开发者全盘接受我们的一整套方案。开发者需要选择权，也需要开放性，而我们愿意把整套技术栈打开，让他们去优化、去探索。

我们没有发明 AI。至少在 GPU 这个语境里，AI 更像是被“发现”的。大家都知道，加拿大的一位研究生 Alex Krizhevsky，在自己的游戏 PC 上，用买来的 GeForce GPU 下载了 CUDA 这个免费软件，然后做出了第一个基于 GPU 的 AI 神经网络，也就是 AlexNet。这才是这件事真正重要的地方。至于下一步会发生什么，我并不知道。但我相信，开发者会找到答案。我们其实只是陪着他们一起往前走，帮助他们去探索下一代编程范式、下一代模型，下一代智能体世界到底会变成什么样子。

问题：NVIDIA 内部是如何保持软件研发和硬件研发的协同？软件架构师是从硬件设计的第一天就参与其中，还是要等到硬件设计全部完成后才开始软件设计？这中间会否有部门墙带来的隔阂？

Ian Buck：这是一个非常棒的问题。我可以谈一个关键的内部机制：我们并不公开 GPU 的指令集。大家都熟悉 X86 指令集、ARM 指令集，但 NVIDIA GPU 从没有对外公开我们的官方指令集。我们在软件栈对外支持的是 CUDA-X，而不是把最底层的硬件接口直接开放出去。

指令集是软件和硬件之间最底层的接口。正因为如此，我们才能把很多优化从最底层一路往上做：从芯片、内核，GPU 指令（我们的确存在一套指令集，只是我们不会将其公开），一直延伸到 CUDA、编译器、运行时库、操作系统优化、线性代数库，以及整个软件栈。

每一次平台迭代，从 Hopper 到 Blackwell，再到 Rubin，我们更新的都不只是芯片，而是整套技术栈。我们架构团队不只是做 GPU 本身——门电路、晶体管、核心、计算引擎——同时还有一个规模巨大的内核与软件团队，直接嵌在架构团队里。当他们交付 Rubin 时，交付的不只是芯片，还有全部内核、全部优化，以及和我的框架团队一起打磨好的整套软件能力。

我的团队里还有很多人专门负责 PyTorch、Dynamo、SGLang、vLLM、JAX、NeMo。这些都是我们长期投入工程师和资源的生态软件项目。所以每一代架构真正交付出来的，其实是芯片、各类内核库、底层接口、调优后的 NCCL 和 NVSwitch，以及成千上万个内核的总和。这才是所谓架构协同设计的真正含义。

我最近没去看具体数字，但我想 NVIDIA 现在的软件工程师肯定比硬件工程师多得多，原因就在这里。外界经常把我们看成一家无晶圆厂的半导体硬件公司，但实际上，我们内部有一个规模极其庞大的软件团队。

我们让成千上万的软件和内核工程师，与设计芯片的团队一起，被组织在同一个体系里，向同一个 VP 汇报。这样做最大的好处是：芯片交付以后，他们的工作并不会停止。Blackwell 出货之后，这些软件团队和同样在做 Rubin 的硬件团队，仍然在做我刚才提到的那些 DeepSeek 优化。他们继续和 OpenAI、Anthropic、Microsoft 以及整个行业合作，不断把 Blackwell 的内核性能再往上推。

更重要的是，他们在这个过程中积累的经验，又会反过来让 Rubin 变得更好。这种并非简单 “甩手掌柜式” 的交付模式，意味着他们也是实际支撑现有模型运行团队的一员。除了对各类内核进行优化之外，他们还能确保 Rubin 在硬件层面也能实现更进一步的优化提升。

问题：AI 正在改变软件开发，这会为 CUDA 及其开发者带来什么样的改变？

Ian Buck：AI 编码在加速 CUDA 的使用，而且速度比很多人想得更快。就拿 NVIDIA 内部来说，我们每天都在生成大量 CUDA 内核，这些内核代码被用于运行 GPT-OS、DeepSeek 这样的模型。现在，一部分 CUDA 内核已经开始由 AI Coding 工具生成。虽然仍有一些内核代码需要工程师手工打磨。这样带来的结果，是性能更高、优化更好，而这背后涉及了大量的软件与调优工作。

我刚才提到的 CUDA-X 的上千个库，现在也不再只是由开发者手工编写，AI Agent 也深度参与其中。CUDA 和 CUDA-X 的采用速度之所以加快，原因就在这里：这些 Agent 已经能够理解这些库各自的能力，并主动调用它们。

我团队有一些做 HPC 的研究人员，他们正在朝 Gordon Bell Prize （全球高性能计算领域的最高荣誉）这类顶级目标推进。现在，他们已经在用 Python、NVIDIA Warp、Claude 和 ChatGPT 生成 CUDA 代码。生产力的提升非常明显，因为Agent 现在可以访问大量不同的库，并把这些库用在具体的领域问题上。无论是直接生成 CUDA 代码，还是基于某个 CUDA-X 库去开发，Agentic Coding 都在整体上提升开发效率，也在推动加速计算更快普及。

问题：统一架构对 CUDA 非常重要，但 Groq 目前还有一点不同，它还没有被 CUDA 支持。未来它会被纳入 CUDA，还是保持独立？

Ian Buck：我们的方向一直很明确：所有平台最终都应该是可编程的。GPU 要可编程，CPU 要可编程，BlueField DPU 要可编程，ConnectX 也可以编程，Spectrum-X 也一样。里面有很多与拥塞控制相关的算法和机制，本身就具备很强的可编程性。如何把这些硬件开放给开发者，以及如何用开发者熟悉的方式完成这件事，是整个体系里非常重要的一部分。

现在，LPU 和 Groq 已经有一套非常强的编译器，能够对 Groq 芯片内部的计算单元进行调度和编程。这里真正关键的是“调度”。当系统以每秒 1000 个 Token 的速度运行时，所有任务都必须被精确安排。每一份数据、每一次计算，都必须在刚刚好的纳秒到位，以便衔接下一个操作。这对这类处理器是否能真正运转，至关重要。

这和 CPU、GPU 的工作方式都不一样。在 GPU 中，我们采用的是针对延迟优化的核心。GPU 有大量任务需要处理，且流水线非常丰富，凭借极高的并行度，硬件可以让所有任务持续流畅地执行与计算。而 LPU 架构的一个核心特点，也是它与 GPU 形成互补的原因，在于它是一种具有精确时序的调度型架构，能够把专家模型里前馈网络（FFNs）的那部分计算精确执行出来。

我们的确打算把这一套编程环境开放出来，但第一代还做不到。因为当前的重点仍然是支持由前沿 AI 实验室打造的标杆模型，我们会直接和这些团队合作。但“开放 LPU 的编程环境”本身，是明确的目标。至于未来是通过 CUDA 的方式，还是通过更通用的方式来实现，这件事还要往后看。

不过有一点非常明确：LPX 和 LPU 的能力不可能单独发挥出来。过去我们追求极快解码时，就已经遇到过这个问题。你当然可以把足够多的芯片堆在一起，组成十几柜 LPX、成千上万个 LPU 去跑一个万亿参数的模型，但问题是内存容量根本不够。这些是 SRAM，容量只有 500 MB。如果再给它接上 HBM，它原本的优势也会随之消失。所以你一定需要另外的GPU和它协同，才能把效率做出来。原本需要几十个机架才能完成的万亿参数模型，现在我们只需要两个机架：一个 Vera Rubin 机架，一个 LPX 机架。

而这件事远不只是两种芯片简单拼在一起。它们之间还需要互连，需要交换机，需要 Spectrum 芯片。当我们解码每一个 Token 时，我们需要 NVLink 芯片把 GPU 连接起来，Spectrum 芯片本身还要与 ConnectX 相连。换句话说，LPX 上的解码不是某一颗芯片单独完成的事，而是七款芯片协同工作后，才能把这些模型真正推向市场，并同时实现性能与效率。

问题：很多竞争对手都在押注推理，因为他们认为这一领域存在巨大机遇。现在你们有了 Groq，在推理方面表现非常出色。你怎么看和 TPU、Cerebras 这类公司的竞争？

Ian Buck：推理从来不可能靠某一个招式取胜。它要求所有芯片协同工作，才能实现出色的性能与极高的吞吐。缺少任何一项，都不可能真正实现规模化。高性能让大模型能够快速思考，出色的 Token 速率让模型赋予我们真正的智能，实现能力与价值的跃升。但只有性能还不够，你还需要具备强大的吞吐量。如果一个数据中心只能为一个模型处理一次查询，这根本形成不了市场，成本太高。你必须拥有足够的吞吐量。

而这正是七款芯片协同工作的意义所在：LPU、GPU、CPU、NVLink、Spectrum、ConnectX、BlueField 共同组成一个系统。这样，我们才能用两个机架完成传统需要一整排机柜才能完成的工作，把每 Token 成本与整体吞吐量打到一个理想区间，让我们能够真正将其推向市场，并以经济高效的方式大规模服务新一代智能体模型。至于其他工作负载，正如黄仁勋在主题演讲里说的，跑在 Blackwell 上很好，跑在 Vera 上也一样很好，这一点我们非常确定。

从这个角度看，为了实现高性能和高吞吐，只有七款芯片协同工作，才能把推动 AI 前沿技术发展，去支撑那些更大的模型。当然，每个人都在提出好的想法。每一块都在创新，软件、模型、架构、机柜设计…..最早在数据中心上液冷的不是我们，而是 Google。其液冷系统设计精妙，色彩丰富。整个 AI 领域都是这样，创新到处都在发生。AI 像一股涨潮的海水，把所有船都一起抬了起来。

有很多很棒的想法。我们要如何汲取其中的精华 —— 无论是软件设计、AI模型、内核优化、压缩算法、数值格式、系统工程、芯片架构，还是封装工艺—— 并将其推向市场？NVIDIA 在做的，就是把这些最好的想法吸收进来，推向市场，从而实现更高的性能、每瓦特性能，以及更有优势的 Token 成本，就像我们在 InferenceMax 基准测试里展示的那样。然后，我们再把它规模化，让整个世界都能从这些创新中获益。

创新一直都在发生。NVIDIA 还有一个独特之处——也是我老板给我们的一个“殊荣”——就是我们每年都要做一个新的平台。这有时候也令人心力交瘁。一年前我们还没有 LPX 机架，也没有 Vera 机架。AI 的演进速度就是这么快。只要你认真去看，那些好想法其实一直都在那里。正因为我们每年都在创新、每年都在推出新平台，所以你们每年也都有理由回到 GTC。

问题：从架构角度看，把三种不同芯片整合到一起，最大的挑战是什么？尤其 Groq 这样的技术来自外部。

Ian Buck：答案首先还是制造和供应链。NVIDIA 这些芯片——Groq 芯片、NVLink 芯片、Spectrum 芯片、BlueField 芯片、CPU、GPU 的制造，里面涉及 CoWoS 封装，要把内存封装到 GPU 上，同时还涉及整个系统级工程：如何把所有器件最终集成为一个机架。

现在，我们已经把第一批工程样机交到了客户手里。在离这里不远的地方，NVIDIA 内部也已经有多台 Vera Rubin 机架在运行，它们已经能跑 PyTorch。展厅里还有 Runway 的一个非常精彩的演示，可以直接看到 Vera Rubin 的实际效果。AI 工厂真正推向市场，背后依赖的是全球供应链与全球制造能力的协同。

问题：所以你们构建了 GB200 ，实际上是把一个超级计算机真正做到了规模化，对吗？

Ian Buck：可以这么理解。我们做的，其实就是把超级计算机真正推到了大规模。自从当年在佛罗里达州坦帕的 Supercomputing 2006（SC06）大会上发布 CUDA 以来，我一直在做超级计算机。它们有点像一级方程式赛车：你造出一辆车，需要无数工程师围着它工作，保证它能跑；跑完一圈以后，还要把它拆开检查每一个部分。那只是一辆车。

但我们今天做的，是把那套工程方法扩展到数百万辆“车”，扩展到以吉瓦计的数据中心规模。现在，我们每个月出货的数据中心 GPU，总功耗加起来大概就是几个吉瓦。这背后需要巨大的系统工程能力、全球制造流程，以及完整的零部件生态。这中间包括液体链接用的 QD 连接器、NVLink 连接器、冷板制造、热管、电容器、稳压器、漏液检测器——所有这些东西都要齐备。

更重要的是，所有零部件最终都必须真正拼成系统。萨蒂亚（微软 CEO）前段时间发过他们机架的照片，我这里也有很多客户机架的照片。有大量工程师负责搭建这些机架。我们通常会先在中国台湾完成这一过程，那里不只是芯片制造的重要地点，也是整个计算机制造工程能力最密集的地方。然后我们再把它推广到全球各地。Dell 在马萨诸塞州和爱尔兰设有制造工厂，今天很多用来训练标杆模型的机架，也有在墨西哥、得克萨斯州或圣何塞等地生产出来的。归根到底，这是整个生态系统共同完成的事。

问题：在整条供应链都参与进来的情况下，把这些东西整合起来的关键挑战，是不是系统工程？

Ian Buck：是的，好消息是 NVIDIA 在 Grace Blackwell 上已经完成过这一过程。借助 NVL72，我们已经把整个系统扩展到那个规模。有了这一层基础之后，现在我们就能在此基础上继续加速，因为供应链、工程经验和制造体系都已经建立起来了。

当我们去构建 LPX 机架和 Vera Rubin 机架时，你会发现它们外观上很像。原因不是巧合，而是我们复用了同一套供应链体系、制造流程、认证周期、测试流程、运输方式，和数据中心标准。这些机架的供电要求一致，液冷要求一致，其排布、散热和水温维持同一标准。这使得客户能够自由组合搭配，或将所有机架整合为一套完整的系统生态。

问题：让这一切真正运转起来的核心，是整个生态系统都在持续投入？

Ian Buck：答案很大一部分确实是：供应链、可制造性，以及整个生态系统都在持续投入，并且把这些能力推向市场。但在那之前，还有大量更基础的工作要做。我们得先把第一台做出来，确保整个软件栈能跑、互连能跑、所有芯片能一起工作。

让我倍感兴奋的是，Vera Rubin 现在已经能跑 PyTorch，能生成漂亮的图像，也能运行大语言模型。我们的 Bring-up 实验室里也有多款大语言模型跑在 LPU 上，目前我们正在搭建对应的机架。Vera 也已经点亮和运行。我自己在上面跑过 287 个不同的基准测试，从 HPC 应用到计算 π 的位数，都已经跑通。现在剩下的，就是把规模继续拉起来，优化调整生产线，并确保良率达到优异水平，以便在今年晚些时候将其交付至各大数据中心。

问题：随着制程进入亚纳米，硅基材料的物理极限越来越明显。NVIDIA 现在如何看待下一代半导体材料，比如 TMD？

Ian Buck：如果你问我现在最兴奋什么，我的答案其实是 CPO（共封装光学，Co-Packaged Optics）。黄仁勋在 GTC 演讲中举起过那块 Spectrum-6 CPO 模块。能够把这样的东西真正做出来，背后的技术和硅工艺都非常惊人。我们全程运用光学物理原理，并将其直接部署在信号生成的位置附近。这会显著增加带宽，大幅提升功耗效率，同时增强了系统的可靠性，让所有服务器实现互联协作、统一运行。今天，我们已经在 NVL72 上做到了这一点。

当初我们敢把密度推到这么高，是因为我们知道，只要有 NVLink 提供的带宽、连接能力和信号速度，就有可能在一个机架里做出一颗“巨型 GPU”：其背后配备的是 5000 根铜缆和 9 台 NVLink交换机。为了让 72 颗 GPU 真正像一个系统那样工作，NVLink 与 CPO 的结合使这一切成为可能。

我不知道你们是否注意到，黄仁勋在演讲里也提到了：在最终的新一代产品里，我们会把 CPO 融入 NVLink，把 NVLink 的扩展规模提升到 1152 颗 GPU。这听起来很疯狂。如果想做到这一点，唯一的办法就是在维持如此大规模信号与连接的同时，避免功耗激增、成本失控，并且让整个系统能够协同如一。其中涉及的物理原理十分精妙，相关技术也堪称惊艳，但研发难度极大。搭载 CPO 技术的 Spectrum-6 交换机将与 Vera Rubin 同步推向市场。它可以把光信号传到几公里之外，同时保持大规模数据中心所需要的稳定性和可靠性。严格说，这并不是对“新材料”问题的直接回答，但如果你问我最期待什么，我的答案就是这个。

问题：随着 NVIDIA 发布新的 CPU 和 LPU，AI 架构正在变得越来越异构。你是否认为，随着 AI 工作负载越来越专业化，基础设施异构化已经成为必然趋势？英伟达 GPU 向来以通用性著称。你们将如何应对全新挑战？GPU 是否仍是该领域的“最优解”？

Ian Buck：这是一个很棒的问题：到底要把系统做得多专用，还是要提供一个可编程平台去承载持续创新？我们始终在两者之间找平衡。

我们完全可以将 GPT-OS 进行流片，把它做成一款芯片级模型。如果走到极端，把整个模型直接做成硅片，我相信某些效率一定会更高。但问题也同样明显：模型和它的实现方式会被永久固化在那块硅片里。这样一来，继续优化模型、优化软件、探索应用场景的空间就会消失。即便是 GPT-OS，也仍然有可能变得更快、更好、更聪明、更可扩展。

我们可以看 DeepSeek R1，它是一年多前发布的，我记得很清楚——对我们的股价来说，那一天也确实很有意思。但从发布以后，它一直在变得更快。为什么？因为整个世界都拿起自己的 GPU，去研究怎么把混合专家网络（MoE）模型跑得更快、更高效，怎么把 Token 成本压低，怎么像 InferenceMax 基准测试里那样继续提高每瓦特性能。这背后有非常大的价值。而这之所以可能，一个根本原因就在于：这些芯片是开放的。它们可以被重新配置、编程、编译、链接、推理、训练。我们欢迎开发者去探索各种不同的计算模式。