大数跨境

黄仁勋 2026GTC采访实录:谈CPU、Groq,盛赞华为(重磅万字)

黄仁勋 2026GTC采访实录:谈CPU、Groq,盛赞华为(重磅万字) Ai&芯片那点事儿
2026-03-18
2
导读:在GTC 2026前,Stratechery采访了英伟达的CEO黄仁勋。
在GTC 2026前,Stratechery采访了英伟达的CEO黄仁勋。
在本次访谈中,他们谈到了一场主题演讲,这场演讲听起来像是一堂历史课,这反映了这家公司即便身为全球市值最高的公司,却依然给人以小公司的感觉。
采访中,他们还探讨了过去一年人工智能领域发生的变革。随后,他们讨论了一系列可能被视为公司战略转变的公告(尽管黄仁勋并不认同),包括英伟达蓬勃发展的CPU业务和对Groq的收购。
最后,他们还讨论了人工智能技术栈的稀缺性及其对英伟达的影响、中国问题,以及黄仁勋对悲观主义者及其在华盛顿的影响力的不满。
以下为采访实录:
英伟达的 CUDA 核心
Q:Jensen Huang,欢迎回到 Stratechery。
JH(Jensen Huang):和你在一起真好。
Q:您刚才真的走下台了,演讲时间有点长,我觉得。不过,您在这次主题演讲中花了很多时间(我很享受这部分内容)解释英伟达是什么,从可编程着色器的历史讲起,也就是20年前CUDA的发布。我们不需要花太多时间赘述,您讲得很好。
我清楚地记得,有人问我,为什么英伟达能在一次GTC大会上发布这么多东西,那大概是六七年前,甚至可能更久远。我解释说,CUDA和所有相关的库其实就是在重复做同样的事情,只不过是针对特定的行业。这就是您今天讲的故事,而且在最近几届GTC和CES的主题演讲都以人工智能为中心之后,这感觉就像是回到了未来。你为什么觉得现在有必要讲述这个故事?重塑 CUDA 的意义何在?这又为何如此重要?
JH:嗯,因为我们正进入许多全新的行业,而且人工智能将会使用各种工具,而这些工具都是我们为人类开发的。人工智能会使用Excel、Photoshop、逻辑合成工具、Synopsis工具和Cadence工具。这些工具必须经过超高速加速,因为它们会使用数据库,而数据库也必须经过超高速加速,因为人工智能运行速度很快。所以我认为,在这个时代,我们需要尽可能地加速世界上所有的软件,然后将它们部署到人工智能前面,以便人工智能能够自主地使用它们。
Q:所以,是不是我们已经在很多行业做过这件事,现在我们要在更多行业做这件事?
JH:是的,还有很多其他方面。例如,数据处理。
Q:这确实有点出乎我的意料。我没想到你们会以与IBM的合作作为开幕式。
JH:是啊,这么说确实让人对事情有了更清晰的认识。我的意思是,这一切确实是他们开创的。
Q:您上周写道,人工智能就像一个五层蛋糕:电力、芯片、基础设施、模型和应用。您是否担心在过去的四五年里,人工智能会被局限在芯片的范畴内?因此,不断提醒人们以及您自己,您是一家垂直整合的公司——不仅在系统构建方面,而且在整个软件栈方面,您不仅仅是一家芯片公司——就显得尤为重要。
JH:我想我的思考起点不是“我不是什么”(What I’m not),而是“我们需要成为什么”(What do we need to be?)。当时,我们意识到加速计算是一个全栈问题,你必须了解应用程序才能加速它。我们意识到,我们必须了解应用程序,我们必须拥有开发者生态系统,我们需要在算法开发方面拥有卓越的专业知识,因为为CPU开发的旧算法在GPU上无法很好地工作,所以我们必须重写、重构算法,以便它们能够被我们的GPU加速。
如果我们那样做,速度就能提升50倍、100倍、10倍,所以绝对值得。我认为从一开始我们就意识到,“好吧,我们想做什么,以及实现这个目标需要什么?”
如今,我们正在建设人工智能工厂,在世界各地建设人工智能基础设施。这远不止是制造芯片,当然,制造芯片也很重要,它是基础。
Q:没错,这就相当于完成了一整套网络和存储功能,现在你又要开始研究 CPU 了。
JH:现在你得把所有东西整合到这些庞大的系统中——一个千兆瓦的工厂可能要500亿到600亿美元。在这500亿到600亿美元中,大概只有150亿到170亿美元左右是基础设施:土地、电力和厂房。剩下的部分是计算、网络、存储等等。所以,除非你能帮助客户建立起足够的信心,让他们相信自己能够成功建设,否则这种规模的投资毫无希望,没人会冒500亿美元的风险。
所以我认为这就是核心理念,我们需要帮助客户不仅制造芯片,还要构建系统;构建完系统之后,不仅要构建系统,还要构建人工智能工厂。人工智能工厂内部包含大量软件,不仅仅是我们自己的软件,还包括大量的冷却管理、电气控制等软件,以及冗余设计等等。很多软件都设计得过于复杂,这是因为各个组件之间缺乏沟通。
当很多人彼此不沟通、不整合系统时,根据定义,你负责的部分就必须过度设计。但如果我们像一个团队一样合作,我们就能确保突破极限,在现有资源下获得更高的吞吐量,或者在满足你所需吞吐量的情况下节省成本。
Q:回到软件方面,您提到Excel最初并非为人工智能而设计。现在像Claude这样的软件有了使用Excel的新功能,所以当您谈到投资这些库时,是为了让这类模型表现得更好吗?还是说这是微软或企业专属的——您想使用这项功能,但不想受制于其他厂商?
JH:嗯,SQL 就是一个很好的例子。人们都在使用 SQL,我们和其他人一样都在操作 SQL 系统,它是企业运营的基石。不过,现在不仅人们会操作我们的 SQL 数据库,还会有很多代理商在操作它。
Q:没错,他们肯定会做得更快。
JH:他们需要加快速度。所以我们首先要做的是加速SQL,这就是其中的简单逻辑。
Q:这很有道理。关于模型,您提到语言模型只是其中一类。“一些最具变革性的工作正在蛋白质人工智能、化学人工智能、物理模拟、机器人和自主系统领域进行”,这是您上周文章中提到的。您之前在其他主题演讲中也提到过这一点,比如“一切皆为token”,我想您以前也用过这句话。您认为Transformer模型是解决所有问题的关键吗?还是我们需要新的基础性突破才能实现这些应用?
JH:我们需要各种各样的新模型。例如,Transformer 模型,它的注意力能力呈二次方增长,那么如何才能拥有相当长的记忆时间呢?如何才能进行长时间的对话,而不至于让键值缓存随着时间的推移变成垃圾数据呢?
Q:或者使用整架固态硬盘来存储 KV 缓存。
JH:当然,假设你能录下我们所有的对话,当你回过头来参考某些对话内容时,哪一部分最重要?我们需要一种新的架构,能够正确地考虑注意力,并能够非常快速地处理这些信息。
我们设计了一种TransformerSSM相结合的混合架构,这使得Nemotron 3能够同时做到超级智能和超级高效,这是一个例子。
另一个例子是构建几何感知模型,这意味着生活中和自然界中的许多事物都是对称的。因此,在生成这些模型时,你不仅希望它生成统计上合理的结果,还希望它基于物理原理,因此它必须是对称的。例如, cuEquivariance就允许你实现这样的目标。
所以,我们有各种不同的技术,例如,当我们生成单词的 tokens时,它是分块输出的,一次输出一小段,一个标 tokens;而生成动作时,则需要连续输出。因此,我们需要生成和理解离散信息,也需要生成和理解连续信息。Transformer 模型并不适合同时处理这两种情况。
Q:没错,这说得通。
推理与编码

Q:文章中还有一段引文,你写道:“过去一年,人工智能跨越了一个重要的门槛。模型变得足够好,可以大规模应用。推理能力有所提升。幻觉减少了。现实基础得到了显著改善。基于人工智能构建的应用首次开始创造真正的经济价值。” 具体来说,这一变化是什么?因为考虑到时间节点,我觉得即将到来的一年肯定是关于智能体的,我今天刚写过相关文章——但就去年而言,推理能力的提升是关键吗?这是重大突破吗?

JH:当然,生成式人工智能是一项重大突破,但它经常出现幻觉,所以我们必须让它现实起来。而实现现实的方法就是推理、反思、检索和搜索,所以我们帮助它实现了现实基础。没有推理能力,这一切都无法实现,因此推理能力使我们能够让生成式人工智能现实起来。

一旦实现了现实基础,你就可以使用该系统来推理问题,将其分解,并将其分解成你可以实际处理的部分,因此下一代人工智能就是工具的使用。事实证明,搜索服务曾经无人付费,这或许说明了一些问题。原因在于,获取信息固然重要且实用,但它并非人们愿意付费购买的东西。要想让人们为某件事付费,门槛必须高于提供信息本身。“哪里有家好餐厅?”——我认为,信息本身并不值得付费。有些人会为此付费,我也愿意。

如今,我们已经跨越了这道门槛。它不仅能够与我们对话,为我们生成信息,当然,它现在还能为我们做事。编程就是一个完美的例子。仔细想想,你会发现,编程与语言的运作方式截然不同。你必须教会它空格、缩进和符号,它几乎是一种全新的运作方式。你不能一次只生成一个代码元素,而是需要对代码块进行思考。那段代码必须经过合理的结构化,必须达到最优,而且显然必须能够编译通过。它不能基于概率上的正确性,而必须基于实际执行结果。

Q:没错,它到底能不能运行?

JH:要么能运行,要么不能运行。所以我认为,学习这种模式(代码)意义重大。我们每年支付工程师几十万美元让他们编写代码,而现在他们有了代码助手。他们可以思考架构。他们不再需要用代码来描述程序(这非常费力),而是可以用规范来描述软件,规范更加抽象,也让他们的工作效率更高。因此,他们可以描述规范和架构,从而将时间用于解决问题和创新。现在,我们的软件工程师100%都在使用代码助手。他们中的许多人已经很久没有编写过一行代码了,但他们的工作效率非常高,而且非常忙碌。
Q:不过,你认为这是否会因为代码可验证而导致人们过度推断的倾向呢?你设想的这个智能体,它不仅可以生成代码,还能进行验证,看看代码是否有效。如果无效,它可以返回并重新编写。这一切都可以无需人工干预,因为系统会给出明确的“有效还是无效”的答案。
JH:嗯,因为你可以利用智能体进行反思。比如说,你可以用它来设计一栋房子。过去,设计房子或厨房是建筑师或设计师的工作,但现在木匠也可以胜任。所以,你提升了木匠的能力,现在你可以使用智能体来让木匠设计房子、设计厨房,并提出一些有趣的设计风格。这个智能体本身并不具备执行工具。
不过,你可以举个例子。你可以说:“这些是我想要的设计风格,我希望它具有这样的美感。”因为智能体能够反思,能够将自身的代码质量和结果质量与某个参考标准进行比较,所以它可能会说:“你知道吗,结果不如预期,我要再修改一下”,然后不断迭代。它不必完全可执行,事实上,越是概率性的、越是美学性的、越是主观的(如果你愿意这么说的话),人工智能的表现反而越好。
Q:没错,这就是为什么我们几乎看到了两个极端。一个是生成图像,没有正确答案;另一个是编写代码,有正确答案。人工智能在这两方面似乎都表现出色,问题是它最终会在多大程度上回归到中间状态。
JH:我们现在相当肯定它能够进行建筑设计,我们相当肯定它能够设计厨房和客厅。
CPU在加速计算中的作用
Q:嗯,说到代理上线,您之前多次谈到加速计算,甚至可以说是贬低了它,认为CPU最终会被淘汰,一切都会被加速。然而,CPU突然又火了起来。事实证明,它们非常有用,而且非常重要,以至于您现在都在卖CPU,作为一名CPU销售员,感觉如何?
JH:毫无疑问,摩尔定律已经失效。加速计算并非并行计算。回顾过去——30年前,可能有10家、20家、30家并行计算公司,最终只有一家存活下来,那就是英伟达。原因在于,我们当时明智地认识到,目标不是淘汰CPU,而是加速应用程序的运行。
Q:所以,我刚才错误地指责您,实际上对其他人来说都是正确的。
JH:我们从未反对过CPU,我们不想违反阿姆达尔定律。事实上,在我们的系统中,为了实现加速计算,我们选择最好的CPU,购买最昂贵的CPU,原因在于,即使CPU并非最佳或性能最高,也会占用数百万美元的芯片资源。
Q:说到分支预测,你之前担心浪费CPU时间,现在你担心浪费GPU时间。
JH:没错,GPU资源绝对不能浪费,GPU时间绝对不能闲置。所以我们始终使用最好的CPU,甚至为此专门开发了Grace,以便拥有性能最高的单线程CPU,从而更快地处理数据。因此,加速计算从未反对过CPU,我的基本观点仍然是阿姆达尔定律已经过时了,那种认为可以通过不断增加晶体管来实现通用计算的想法已经过时了,所以我认为从根本上讲,我们并不反对CPU。
然而,这些智能体现在能够使用工具,而它们想要使用的工具是为人类设计的,基本上分为两类。一类是我们在数据中心运行的工具,其中大部分是 SQL,大部分与数据库相关;另一类是个人电脑上的工具。我们现在将拥有能够学习非结构化工具使用的 AI,第一种工具使用方式是结构化的。命令行界面 (CLI) 和 API 都是结构化的工具使用方式,它们的命令和参数都非常明确,与应用程序交互的方式也非常具体。
然而,还有许多应用程序最初并非为 CLI 和 API 而设计,这些工具需要 AI 来学习多模态的非结构化信息,并且需要能够浏览网站,识别按钮和下拉菜单,像我们一样完成操作。使用该工具的用户需要使用个人电脑,而我们两方面都有,我们拥有非常出色的数据处理系统,而且正如您所知,英伟达的个人电脑是世界上性能最强的。
Q:那么,面向代理的 CPU 与其他 CPU 有何不同?假设你打算使用一整机架的 Vera CPU。
JH:哦,太好了,非常棒。过去十年,CPU 的设计都是为了超大规模云,而超大规模云的 CPU 盈利模式是按 CPU 核心数计费。因此,你需要设计的 CPU 拥有尽可能多的可租用核心,性能则相对次要。
Q:你主要关注的是 Web 延迟。
JH:完全正确。所以,你优化的是 CPU 实例的数量。这就是为什么你会看到一些拥有几百、三百、四百个核心的 CPU 出现。然而,它们的性能并不理想,尤其是在工具使用方面,比如 GPU 等待工具请求时——
Q:而且你还要通过 NVLink 进行传输。
JH:没错,你想要的是尽可能快的单线程计算机。
Q:所以仅仅是速度吗?还是说CPU本身需要越来越并行,以避免出现调用失败之类的问题?或者说,整个流水线都截然不同?
JH:是的,最重要的是单线程性能,I/O性能必须非常出色。因为它现在部署在数据中心,运行的单线程实例数量会非常多,因此会对I/O系统和内存控制器造成很大的压力。Vera的CPU核心带宽是以往任何CPU的三倍,因此它的设计使其拥有极高的I/O带宽和内存带宽,从而避免CPU过热降频。如果 CPU 性能受到限制,那么我们就相当于限制了大量 GPU 的性能。
Q:这个 Vera 机架,你之前说过它与 GPU 机架紧密相连,但它是否仍然采用解耦设计,以便 GPU 可以服务于多个不同的 Vera 核心?而你们的 Vera 核心是集成在一块板上的——
JH:是的。
Q:好的,明白了,这说得通。你们与英特尔的合作以及 NVLink 技术在这其中扮演什么角色?
JH:非常好。世界上有些用户对 Arm 架构很满意,而有些用户,特别是企业计算用户,仍然需要大量的架构堆栈,他们不想迁移这些堆栈,因此 x86 架构对他们来说非常重要。
Q:x86 代码的稳定性是否让你感到惊讶?
JH:没有。英伟达的 PC 仍然是 x86 架构,我们所有的工作站都是 x86 架构。
有关Groq的讨论
Q:我想祝贺你,正如你今天在主题演讲中所说,你是token之王。你在文章中也提到,能源是人工智能基础设施的首要原则,也是系统智能输出能力的制约因素。如果真是这样,如果token产量受限于数据中心的能源消耗,那么其他公司为什么还要费力与token之王竞争呢?
JH:这很难,因为要制造出一款芯片并取得显著成果是不现实的。即使是Groq,如果没有Vera Rubin的支持,它也无法实现这样的结果。
Q:好的,接下来我想谈谈Groq。
JH:如果你纵观整个推理过程,一方面,你希望尽可能提高吞吐量;另一方面,你希望尽可能多地生成智能token——token越智能,价格就越高。这两种平衡,即一方面最大化吞吐量,另一方面最大化智能,这种矛盾真的很难解决。
Q:我必须说,去年您用一张幻灯片谈到了帕累托曲线,我记得您是在介绍 Dynamo 的时候提到,您的 GPU 可以完全覆盖所有需求,所以用户无需考虑,只需购买一块英伟达 GPU,Dynamo 就能同时满足这两个需求。但现在您却说,“嗯,它并不能完全覆盖所有需求”。
JH:我们仍然比任何其他系统都能更好地覆盖所有需求。我们可以扩展帕累托曲线的地方在于极高的token生成率和极低的延迟,但这也会降低吞吐量。然而,由于编码代理,由于它们现在是能够创造非常非常高的经济效益的 AI 代理,并且由于这些代理与人类结合,而人类实际上创造了极其巨大的价值。
Q:没错,它们甚至比 GPU 更昂贵。
JH:所以我想给我的软件工程师提供最高token处理速度的服务。如果 Anthropic 有一个 Anthropic Claude Code 的升级版,能将编码速度提升 10 倍,我肯定会付费购买。
Q:所以你是为自己开发这款产品吗?
JH:我认为大多数伟大的产品都是这样诞生的,因为你发现了痛点,感受到了痛点,并且知道市场会朝着那个方向发展。我们当然希望我们的编码代理运行速度能提升 10 倍,但要在高吞吐量系统中实现这一点非常非常困难,所以我们决定加入 Groq 的低延迟系统,然后我们基本上是协同运行、协同处理。
Q:好的。这只是把解码和预填充分开吗?
JH:我们甚至会处理解码过程中高处理量、高浮点运算的部分,以及解码过程中的注意力机制部分。
Q:所以你们甚至把分解细化到了解码层。
JH:没错,这需要非常紧密的软件耦合和高度集成。
Q:么你们是如何做到这一点的呢?你们说会在今年晚些时候发布,而这项交易几个月前才刚刚宣布。
JH:嗯,我们开始着手研究分解推理,Dynamo 真正把英伟达的想法摆到了台面上。在我发布 Dynamo 的那天,大家应该都明白了,我当时已经在思考“我们如何在异构基础设施上更精细地分解推理?”,而 Groq 的架构是我们架构的一个极端版本,他们遇到了很大的困难。
Q:Dynamo 是一年前推出的,而 Groq 则是在圣诞节前后收购的。是什么契机促使你们觉得这笔交易势在必行呢?
JH:嗯,记得我一年前宣布了 Dynamo 项目,我们已经开发 Dynamo 两年了,所以我们对解耦推理的思考也持续了两三年。我们可能在宣布收购之前,大概六个月前就开始与 Groq 合作了。因此,我们很早就开始考虑与他们合作,将 Grace Blackwell 和 Groq 整合起来。
与他们的互动中,我非常欣赏他们的团队,而且我们并不需要他们的云服务。他们还有另一项他们非常看好、并且现在依然看好的业务,而且他们在这方面做得非常出色,但这并非我们想要的业务,所以我们决定收购他们的团队并获得技术授权。然后,我们将采用他们的基础架构,并在此基础上进行发展。
Q:所以,这或许算是一个幸运的巧合,或者说,也许并非一个幸运的巧合。
JH:战略上的意外惊喜。
Q:因为你知道,OpenAI 一月份就发布了基于 Cerebras 的实例。
JH:那是完全独立于我们完成的,坦白说,我之前甚至都不知道,但即便知道也不会改变什么。我认为无论如何我都会选择 Groq 架构,它对我们来说更合理。
Q:这是你第一次遇到那种让你眼前一亮、觉得“哦,这其实从根本上来说不一样”的 ASIC 方案吗?
JH:不,是 Mellanox。
Q:那是个很好的例子。
JH:是的,Mellanox。我们把我们自己的很多计算栈都移植到了 Mellanox 的栈里。如果没有我们用 Mellanox 实现的网络内计算,NVLink 在我们讨论的规模下是不可能实现的。将软件栈拆分、解耦并部署到所需位置,是英伟达的专长。我们并不执着于计算在哪里进行,我们只想加速应用程序。记住,英伟达是一家加速计算公司,而不是一家GPU公司。
Q:好的。您提到算力是瓶颈。当您的客户考虑购买什么时,我们可以购买各种传统GPU,也可以购买LPU机架。他们是否应该这样考虑:您确信LPU机架能够带来更高的收入?
JH:这实际上取决于他们拥有的产品类型。假设您目前确实没有企业级用例,我认为添加Groq意义不大,原因在于您的大多数客户都是免费用户,他们正在向付费用户过渡。所以,您的客户可能是三分之二是免费用户,三分之一是付费用户,在这种情况下,添加Groq会增加很多成本。你夺取了一些权力,但这不值得。
Q:复杂性。而且你还减少了服务器,这可是机会成本啊。
JH:没错,你本来可以把这些资源用于免费层级的服务。但是,如果你经营的是类似 Anthropologie 或 OpenAI 那样的业务,Codex 已经取得了非常可观的经济效益,但你只是希望能够发行更多代币,那么添加加速器就能真正提升你的收入。
中国与末日论者
Q:到 2026 年,我们真的会受到电力、晶圆厂产能或其他因素的限制吗?大家都说供应不足。真正的限制因素是什么?
JH:我觉得各方面都差不多。你不可能真的把任何东西翻倍。
Q:因为你会遇到其他一些限制。
JH:是的。
Q:不过,感觉美国在电力供应方面做得相当不错,可能比几年前人们预期的还要好,感觉芯片才是目前真正的限制因素。
JH:我们的供应链规划得相当完善。你知道,我们之前就计划今年业务量非常大,明年也是。
Q:我们看到大家都在喝烧酒、吃炸鸡。
JH:(笑)是啊,没错。我们的供应链有几百家合作伙伴,而且都是长期合作关系,所以我们对这方面很有信心。
我不认为我们的电力供应是我们需要的两倍,芯片供应也不是我们需要的两倍,任何东西都不是我们需要的两倍。但我认为,从供应链的角度来看,我们能够支持所有我预见的未来发展。我最希望的,或许就是土地、电力和厂房建设能够尽快完成。
Q:公平地说,如果资源短缺确实存在,英伟达实际上是最大的受益者吗?比如,如果电力短缺,你的芯片效率最高,就能更好地利用电力。或者,如果晶圆厂产能充足,就像你刚才说的,你们一直在努力确保供应链,而且已经基本解决了这个问题,那么你们在这方面是不是最大的赢家?
JH:嗯,我们是这个领域最大的公司,而且我们在规划方面做得很好。我们规划了供应链的上游和下游,所以我认为我们已经为所有人的增长做好了充分的准备。
Q:没错,但从根本上来说,无法进入中国市场是否会构成威胁呢?比如说,如果中国最终拥有充足的电力和芯片,即使这些芯片只有7纳米制程,他们也有能力建立一个生态系统,从长远来看,其规模甚至可能与CUDA匹敌,这就是你所担心的吗?
JH:毫无疑问,我们需要在中国使用美国的技术栈,我从一开始就坚持这一点,并认识到开源软件终将到来。没有哪个国家比中国对开源软件的贡献更大,我们也知道,全球50%的人工智能研究人员来自中国,而且他们非常有创造力。DeepSeek并非一款普通的技术,它真的非常出色。Kimi和Qwen也非常优秀,他们对架构和人工智能技术栈都做出了独特的贡献,所以我认为我们必须认真对待这些公司。
如果说世界各国都以美国的技术体系为基础进行开发,那么当这项技术从中国扩散出去时(而它必然会扩散出去,因为它是开源的),当它从中国进入美国产业、东南亚欧洲时,美国的技术体系将做好充分准备迎接它。我一直坚持认为,这或许是美国科技产业面临的最具地缘政治战略意义的问题。
Q:是的,上次我们谈话的时候,特朗普政府已经禁止了H20。你当时能让特朗普政府理解你的观点,你感到惊讶吗?而现在,你又被中国政府阻挠,你是不是更感到惊讶?
JH:我对我们被他们阻挠并不感到惊讶,原因很简单,中国当然希望他们的技术体系能够发展壮大。在我们离开中国市场的这段时间里,你也知道中国产业发展的速度有多快,华为今年的业绩创下了公司历史新高。华为是一家历史悠久的公司,他们今年的业绩也创下了纪录。他们旗的芯片公司都在致力于人工智能领域。
我认为我们需要更具战略性地思考美国在地缘政治和技术领域的领导地位。人工智能不仅仅是一个模型,这是一种严重的误解——正如我之前所说,也正如你一开始提到的,人工智能就像一个五层蛋糕,我们必须拿下基础设施层、芯片层、平台层、模型层和应用层。
我们的一些做法正在损害我们国家在这五个层面上的领先地位。我认为,认为制胜之道在于将所有环节自上而下地捆绑在一起,把所有公司都整合到一个整体架构中,从而只能在任何一个层面所能达到的极限范围内取得胜利,这是一个极其严重的错误。我们必须让所有层面都参与进来,努力赢得市场。
Q:其他层面是否可能受益于他们在华盛顿更丰富的经验,而你似乎有点姗姗来迟?
JH:是的,也许吧。
Q:你从中吸取了哪些经验教训?你对华盛顿最大的感悟是什么?
JH:嗯,让我惊讶的是,末日论者已经深深融入华盛顿特区,他们的言论对政策制定者的心理产生了多么大的影响。
Q:每个人都感到恐惧,而不是乐观。
JH:没错,我认为这存在两个根本问题。在这次工业革命中,如果我们不让技术在美国普及,也不加以利用,那么我们将会重蹈上次工业革命时期欧洲的覆辙——被他们远远甩在后面。在很多方面,他们发明了上次工业革命的所有技术,而我们只是坐享其成。我希望我们拥有历史的智慧,拥有对技术的理解,而不是陷入科幻小说、末日论以及那些为了吓唬那些对技术了解不深的政策制定者而编造出来的耸人听闻的故事中。这些科幻小说式的设想毫无益处。
我最担心的情况之一是,民意调查显示,美国民众对人工智能的接受度正在下降,这是一个真正的问题。这与上次工业革命时期电力、电动机和汽油发动机的普及程度下降的情况并无二致。你能想象互联网的普及程度吗?其他国家比我们更快地利用了它,技术也更快地渗透到他们的产业和社会中。因此,我们必须更加谨慎,不要把这项技术赋予某种神秘的科幻色彩,那样只会适得其反,吓唬人们。
所以我不喜欢那些散布末日论的人到处散播恐慌。我认为,真正关心并警告人们与制造恐慌言论之间是有区别的。
Q:我经常看到的一种现象是,人们戴着高深的思考帽,试图找出各种细微差别,却忘记了真正的大众传播往往是概括性的。你不能说“哦,你有点害怕这个,但对这个XYZ没那么害怕”——你只是在传播恐惧,而不是传递乐观。
JH:是啊,而且不知怎么的,这反而让他们听起来更聪明。
Q:人们都喜欢装聪明。
JH:有时候,也许(我们现在知道了),这有助于他们筹集资金;有时候,这有助于他们掌控监管。所以他们这么做的原因有很多,这些人确实非常聪明,但我只想提醒他们,这些做法大多可能会适得其反,最终会让他们后悔当初的选择。
英伟达的本质
Q:我知道时间有点紧,所以我打算把几个问题放在一起问。在自动驾驶汽车领域,你们与多家汽车制造商合作,你们有自己的 Alpamayo 模型,同时还在为特斯拉供应芯片。你们今天的演讲中重点介绍了 OpenClaw——与此同时,推动 Vera 芯片发展的关键因素,例如我们讨论的智能体,是 Claude Code 和 OpenAI 的 Codex 等项目正在发生的事情。
我理解的没错吧?你们对开源模式的投资也与此相关,你们乐于为芯片领域的领先供应商或发明家供货,但同时也会迅速跟进,为所有受到威胁的竞争对手提供服务?这样一来,你们既能拓展客户群体,又不完全依赖行业领导者,而且这些领导者也会帮助你们拓展客户,因为他们担心被淘汰。
JH:不,并非如此。我们在很多领域都处于领先地位。在很多方面,我们都是这些领域的领导者,但我们从未将这些技术转化为产品。我们提供的是技术栈,所以我们必须走在前沿,必须成为技术栈领域的全球领导者,但我们不是解决方案制造商,也不是服务提供商。这是最重要的一点。
Q:这种情况会一直持续下去吗?
JH:是的,一直如此。没必要,我们也乐于不这么做。所以我们创造了所有这些技术,并让所有人都能使用。
Q:不过,有趣的是,如果你回顾一下你们的电路板,比如你们出货的产品,你会发现越来越多的产品,现在货架上大概有三万个不同的SKU。其中越来越多的产品是由你们自己定义的,“这就是它的样子”,部分原因是为了方便组装,以及其他各种组件。正如你们在谈到垂直整合和开源模式时所说,软件方面也会有类似的趋势吗?
JH:我们先垂直整合,然后水平开放,这样每个人都可以使用他们想要的任何组件。
Q:只要他们使用英伟达芯片就行吗?
JH:无论他们想要什么组件,他们不必使用所有英伟达芯片,也不必使用所有英伟达软件。我们必须垂直构建、垂直整合并垂直优化。之后,我们会提供源代码,让他们自行决定如何实现。
Q:鉴于像 Meta 这样的公司似乎已经衰落,或者说,目前市场上似乎主要依赖中国模型,你认为英伟达真的能够开发并保持领先地位,打造出能够赢得该领域或成为该领域必要供应商的前沿模型吗?
JH:赢得该领域对我们来说并不重要。
Q:没错,重要的不是赢得该领域,而是需要一个开源的前沿模型,如果不是你们,那会是谁?
JH:没错,没错,总得有人来创建开源模型,而英伟达在这方面确实有能力。每当我们创建这些开源模型时,我们也能从中学习到很多关于计算的知识。
Q:Blackwell 的测试是不是有点问题?我听说有人抱怨说,这次的训练可能比以前难一些。
JH:Blackwell 的挑战完全在于 NVLink 72,NVLink 72 的工作量非常大。那也是我唯一一次感谢大家与我们一起努力。
Q:是啊,我注意到你今天说这话的时候,感觉非常真诚。
JH:是啊,因为我们把大家都折磨得够呛,但现在大家都很喜欢它。
Q:这是我们第二次有机会面对面交流,上次在台北见到你时,我的感觉是英伟达仍然像是一家小公司。你担心公司会因为人手不足而疲于奔命吗?或者你仍然觉得你们有类似 CUDA 那样的飞轮效应,就是“看起来我们做了很多,但其实只是在重复做同样的事情”?
JH:英伟达之所以能发展如此迅速,是因为我们始终秉持着一个统一的公司理念。而我的工作就是提出一个统一的理念,阐明哪些事情至关重要,为什么各个事物之间存在联系,以及它们是如何相互联系的。然后,我需要创建一个组织,一个能够真正高效地践行这一理念的机构。
因此,英伟达的统一理念其实相当简单。一方面,我们拥有计算平台,也就是与 CUDA-X 相关的软件平台。另一方面,我们是一家计算系统公司,我们进行垂直优化,在整个技术栈以及计算机的所有不同组件中应用极致的协同设计。如今,计算机本身就是我们的一个平台,我们将这个平台集成到所有云平台和所有 OEM 厂商的产品中。此外,我们还有另一个平台,即数据中心平台或 AI 工厂平台。
所以,一旦你对英伟达的产品以及它的运作方式有了统一的理论——而我正是利用这次主题演讲,把这个故事的一部分讲给了我们自己的员工听。
Q:感觉就是这样。主题演讲的第一个小时,就像是在和员工们对话,提醒他们公司的工作内容。

JH:重要的是我们要时刻牢记什么对我们来说是重要的,人工智能对我们来说很重要,但当然,CUDA-X 以及所有求解器和我们可以加速的所有应用程序对我们来说也非常重要。


【声明】内容源于网络
0
0
Ai&芯片那点事儿
探索半导体及AI世界的的新鲜事
内容 1267
粉丝 0
Ai&芯片那点事儿 探索半导体及AI世界的的新鲜事
总阅读6.3k
粉丝0
内容1.3k