大数跨境
0
0

资深分析师帕特尔谈AI浪潮对半导体行业的影响:英伟达平替?ASIC、预训练、测试时计算、数据中心建设热潮、HBM

资深分析师帕特尔谈AI浪潮对半导体行业的影响:英伟达平替?ASIC、预训练、测试时计算、数据中心建设热潮、HBM 金融科技教育网
2024-12-25
0
本文内容整理自Dylan Patel接受Bg2 Pod Youtube频道专访,公开发表于2024年12月23日。
原始内容参考:https://www.youtube.com/watch?v=QVcSBHhcFbg

内容提要: 戴伦·帕特尔接受BG2播客深度访谈:AI芯片产业全景解析
本文围绕人工智能浪潮对半导体产业的影响,特别是英伟达的市场地位及其挑战,以及未来产业发展趋势展开。主要观点如下:
  1. 英伟达的市场主导地位及其原因:  英伟达在AI工作负载市场占据压倒性优势(70%-98%),这得益于其“三头龙”战略:优秀的硬件、领先的软件(CUDA生态)和强大的网络能力(Mellanox收购)。其竞争优势在于快速迭代产品(每年更新几代)、与供应链紧密合作以及对性能TCO(总拥有成本)的极致追求。
  2. 预训练规模的争议与新方向:  虽然预训练数据存在瓶颈,但“缩放定律”并未失效。 新方向是通过“推理时间计算”和“合成数据生成”来提升模型能力。合成数据在可功能验证的领域(如代码生成、数学证明)效果显著,但在主观领域(如艺术创作)则效果较差。
  3. 数据中心建设与资本支出: 超大规模公司(谷歌、微软、亚马逊、Meta等)持续巨额投资建设数据中心,表明“规模扩张”并未过时,而是转向了更注重效率和性能的规模化。 数据中心建设受限于电力和空间,而非GPU芯片供应。 大量老旧CPU服务器的替换也驱动了数据中心扩张和AI服务器的部署。
  4. 推理时间计算的成本与收益:  推理时间计算虽然减少了训练成本,但却大幅增加了推理成本(可能增长数十倍)。 然而,这种成本是可以转嫁给最终用户的,因为模型能力的提升带来了更高的生产力,从而带来更高的商业价值。
  5. 英伟达的挑战与替代方案:  虽然英伟达占据主导地位,但其面临着来自定制ASIC(例如谷歌TPU,亚马逊Trainium)、AMD以及其他公司(如博通在网络领域的竞争)的挑战。 然而,这些挑战在短期内难以撼动英伟达的领先地位。AMD在硬件方面实力强劲,但在软件和系统级设计方面仍有差距。 谷歌TPU在谷歌内部应用广泛,但在外部市场拓展受限于软件封闭性和定价策略。
  6. 内存市场与HBM:  随着推理时间计算对内存需求的激增,HBM(高带宽内存)市场将迎来长期增长,并呈现出一定程度的差异化,这与以往的内存市场商品化特性有所不同。SK海力士在HBM市场占据领先地位。
  7. 未来展望(2025-2026):  2025年半导体市场将继续增长,但2026年存在不确定性。 模型持续改进、资金持续涌入以及超大规模公司的持续投资是关键因素。 新兴云服务商将面临整合,最终可能只有少数几家能够生存下来。 过度投资的风险依然存在。 关注模型改进速度和企业/消费者对AI服务的付费意愿,将是判断未来趋势的关键。

迪伦·帕特尔

迪伦·帕特尔(Dylan Patel)是一位在半导体行业拥有深厚专业知识和广泛影响力的分析师。他以其对芯片产业的深刻见解和精准的预测而闻名。 帕特尔主要通过其所在的咨询公司Ross Young以及在其个人社交媒体平台上分享分析报告和评论,这些内容涵盖了从芯片制造工艺到市场趋势的方方面面。
他的分析往往深入探讨技术细节,并结合市场数据提供全面的视角。他尤其关注先进制程芯片的发展,包括台积电、三星和英特尔等主要厂商的竞争态势以及其对整个产业链的影响。帕特尔对行业动态的敏锐捕捉能力,使他的观点备受业内人士关注,他的预测也经常被媒体引用和报道。

访谈全文

主持人布拉德: 很高兴来到这里。很高兴你们今天都在这里。迪伦,这是我们今年一直在讨论的事情之一,那就是计算世界正在发生根本性的变化。所以,比尔,你给大家介绍一下迪伦是谁,然后我们开始吧。
主持人比尔: 是的,我们很高兴能请到来自 SemiAnalysis 的迪伦·帕特尔。我认为,迪伦已经迅速建立起了全球半导体行业最受尊敬的研究团队。所以,我们今天想做的就是深入探讨一下,我认为迪伦从技术角度了解到的架构、规模、全球市场上的主要参与者、供应链,以及我们所认识的最聪明的人都在听取和阅读迪伦的著作,然后将其与我们的听众关心的业务问题联系起来,看看会得出什么结论。我希望能够对所有与这场人工智能浪潮相关的半导体活动进行一次时间点的快照,并尝试将其放在大背景下看待。
主持人布拉德: 迪伦,你是怎么入行的?
迪伦·帕特尔:  是这样的,我八岁的时候,我的 Xbox 坏了,而我的父母是移民。我在佐治亚州的农村长大,除了当一个书呆子之外,我没有太多事情可做。我不能告诉他们我把 Xbox 弄坏了。我不得不把它拆开,把温度传感器短路,然后修好它。那是修理它的方法。当时我不知道我在做什么,但是后来我一直活跃在那些论坛上,我成了一个论坛战士。你知道,你看到那些在评论里总是对你大喊大叫的人,布拉德,你知道,就像,嗯,那是我小时候的样子。你小时候并不知道,但你知道,就像小时候在网上和别人争论,然后一有钱就开始阅读半导体公司的财报并投资它们,用我实习赚来的钱,当然,也会阅读一些技术性的东西,然后工作一段时间,然后是的。
主持人布拉德: 简单介绍一下 SemiAnalysis 现在的情况,这个公司是做什么的?
迪伦·帕特尔: 是的,我们现在是一家半导体研究公司,也是一家人工智能研究公司。我们为公司提供服务,我们最大的客户是所有超大规模公司、最大的半导体公司、私募股权公司以及对冲基金。我们销售有关全球每个数据中心位置、每个季度的功耗、扩建进展的数据。我们销售有关晶圆厂的数据,我们跟踪全球 1500 家晶圆厂。对于你们来说,只有 50 家是重要的,但我们跟踪全球所有 1500 家晶圆厂。电缆、服务器、电路板或变电站设备等供应链也是如此。我们尝试以非常以数据驱动的方式跟踪所有这些,并进行预测。然后,我们还提供这些领域的咨询服务。
主持人布拉德: 是的。我的意思是,你知道,比尔,你和我刚讨论过这个。我的意思是,对于 Altimeter 来说,我们的团队一直在和迪伦以及迪伦的团队交流。我认为你是对的。他通过努力、辛勤工作,做那些重要且枯燥的事情,迅速脱颖而出,我认为这是半导体行业正在发生的事情的基准。我们正处于这个阶段,我估计我们已经进入这个建设阶段两年了,而且它发展得非常迅速。比尔和我正在讨论的事情之一是,当我们进入 2024 年底时,我们需要深吸一口气,思考 25 年、26 年以及更远的未来,因为很多事情正在发生变化,而且有很多争论,这将对公共市场和私人市场中数万亿美元的价值、超大规模公司的投资方式以及我们未来的发展方向产生影响。所以,比尔,你来带我们开始提问吧?
主持人比尔: 嗯,所以,我认为如果你要谈论人工智能和半导体,只有一个地方可以开始,那就是广泛地谈论英伟达。迪伦,你认为目前全球有多少百分比的人工智能工作负载是在英伟达的芯片上运行的?
迪伦·帕特尔: 所以,我会说,如果你忽略谷歌,那将超过 98%。但是,当你把谷歌考虑进来时,它实际上更像是 70%,因为谷歌在人工智能工作负载中所占的比例真的很大,尤其是生产工作负载
主持人比尔:  你说的生产是指内部工作?
迪伦·帕特尔: 生产是指那些正在赚钱的东西,那些正在赚钱的东西。它甚至可能低于 70%,因为你认为谷歌搜索和谷歌广告是世界上两个最大的人工智能驱动业务,唯一可以与之相提并论的只有 TikTok 和 Meta,对吧?
主持人比尔:  而且,我认为重要的是要说明一下,那些谷歌的工作负载是在谷歌的专有芯片上运行的。它们是非 LLM 工作负载,对吧?
迪伦·帕特尔:  所以,谷歌的非 LLM 和 LLM 的生产工作负载都在他们的内部芯片上运行。我认为有趣的事情之一是,是的,每个人都会说谷歌在 Transformer 和 LLM 上失误了,对吧?OpenAI 是怎么做 GPT 的,对吧?而不是谷歌。但是,谷歌自 2018 年、2019 年以来就在他们的搜索工作负载中运行 Transformer。BERT 的出现,BERT 是我们进入 GPT 狂潮之前最广为人知、最受欢迎的 Transformer 之一,已经应用在他们的生产搜索工作负载中多年了。所以,他们在他们的搜索和广告业务中也在他们自己的芯片上运行 Transformer。
主持人比尔:  回到你刚才说的 98% 这个数字。如果你只看人们购买的用于自己工作的那些工作负载,那么你把自用的部分拿开,你现在是 98%,对吧?这在目前来说是绝对的压倒性优势。
主持人布拉德:  再回到谷歌一下。他们也是英伟达的大客户之一。
迪伦·帕特尔: 他们确实购买了一些 GPU。他们为一些与 YouTube 视频相关的工作负载、内部工作负载购买了一些,对吧?所以,并非所有内部工作负载都是 TPU,对吧?他们确实为其他一些内部工作负载购买了一些,但总的来说,他们购买 GPU 的目的是为了让 Google Cloud 将它们出租给客户。因为虽然他们确实有一些外部客户使用他们的内部芯片,例如苹果,但就云业务而言,他们外部人工智能租赁业务的绝大部分仍然是 GPU。
主持人比尔: 那是英伟达的 GPU,对吧,英伟达的 GPU。他们为什么如此占主导地位?为什么英伟达如此占主导地位?
迪伦·帕特尔: 我喜欢把它想象成一条三头龙。我想说,世界上除了英伟达之外,所有半导体公司的软件都很烂。当然还有硬件。人们没有意识到英伟达在硬件方面实际上比大多数人都要强得多。他们之所以能更快地获得最新技术,是因为他们疯狂地朝着实现某些生产目标前进。他们从构思设计到部署,推出芯片的速度比其他人更快。还有就是网络方面。他们收购了Mellanox,并在网络方面投入了巨大精力。所以这三件事结合起来,形成了一条其他半导体公司无法单独做到的三头龙。
主持人比尔: 是的,我想提一下你做过的一个项目,迪伦,你帮助大家可视化了英伟达最前沿的部署的复杂性,包括机架、内存、网络以及整体规模。这非常有帮助。
主持人布拉德: 我的意思是,人们经常会拿那些真正的独立芯片公司,而不是系统公司或基础设施公司,与英伟达进行比较。但我认为其中一个被严重低估的方面是英伟达的竞争壁垒的程度。你知道,软件在从这些基础设施中挤压效率和降低总运营成本方面正变得越来越重要。所以请跟我们谈谈比尔提到的那个模式,你知道,系统架构有很多不同的层次,以及它与定制 ASIC 或 AMD 的区别。
迪伦·帕特尔: 好,所以当你从广义上看GPU时,没有人会买一块芯片来运行AI工作负载。模型早已超越了这个范畴。看看今天最前沿的模型,比如拥有超过一万亿参数的GPT-4。一万亿参数就超过了一太字节的内存。你不可能获得一块具有这种容量的芯片。即使一块芯片拥有足够的内存容量,它也无法提供足够的性能来支持该模型。因此,你必须将许多芯片连接在一起。
有趣的是,英伟达看到了这一点,并构建了一个架构,将许多芯片很好地连接在一起,称为 NVLink。但有趣的是,很多人忽略的一点是,谷歌实际上是与博通一起做了这件事,而且他们比英伟达更早做到了。今天,每个人都对英伟达的 Blackwell 系统感到非常兴奋,对吧?它是一整个 GPU 机架。这是购买的单位;它不是一台服务器,也不是一块芯片。而是一个机架。这个机架重达三吨,有成千上万的电缆,以及所有这些东西,Jensen(黄仁勋)可能会告诉你——它极其复杂
有趣的是,谷歌在 2018 年用 TPU 做了一个非常相似的事情。当然,他们无法独自完成;他们了解软件,并且知道计算元素需要是什么样的,但他们不了解其他很多困难的事情,比如封装设计和网络。因此,他们不得不与博通等其他供应商合作来实现这一目标。由于谷歌对人工智能模型的发展方向有着如此统一的愿景,他们能够构建这种为人工智能优化的系统架构。
当时,英伟达还在考虑如何扩大规模。我相信他们本可以尝试扩大规模,但他们认为主要的工作负载不需要扩展到那种程度。现在每个人都看到了这一点,并且都朝着这个方向努力。然而,英伟达的 Blackwell 现在来了,而像 AMD 等竞争对手最近不得不进行收购,以帮助他们进入系统设计领域。制造芯片是一回事,但制造许多连接在一起的芯片,适当地冷却它们,将它们连接在一起,并确保这种规模下的可靠性,这是半导体公司可能没有工程师来解决的一系列问题
主持人比尔: 你认为英伟达在哪方面投入了最多的增量差异化?
迪伦·帕特尔: 我认为为了实现差异化,英伟达主要关注供应链方面的事情,这听起来可能像是,“哦,好吧,他们只是订购东西”。不。你必须深入与供应链合作,才能构建下一代技术,以便你能比其他任何人都更早将其推向市场,对吧?因为如果英伟达停滞不前,他们就会被吞噬,对吧?他们就像安迪·格鲁夫说的,“只有偏执狂才能生存”。Jensen可能是世界上最偏执的人。
是的。早在大型语言模型热潮之前,多年来,他的所有大客户都在构建人工智能芯片。在大型语言模型热潮之前,他的主要竞争对手还在想,哦,我们应该制造GPU。然而,他仍然保持领先地位,是因为他以其他任何人都无法达到的产量将技术推向市场。无论是在网络、光学、水冷,还是在所有其他类型的供电方面,他都在将其他任何人都没有的技术推向市场。
他必须与供应链合作,并教会那些本身就具有一定能力的供应链公司,制造今天不存在的东西。英伟达现在正试图每年都这样做——这太不可思议了。Blackwell、Blackwell Ultra、Rubin、Rubin Ultra——他们发展得如此之快,他们每年都在推动如此多的变化。
当然,人们会说,哦不,Blackwell 有一些延误。是的,当然,你看看你对供应链的推动力度有多大。
主持人布拉德: 这是否是竞争优势的一部分,或者说,他们现在采用这种年度节奏在竞争优势中占了多大的比重?因为看起来,通过这样做,它几乎阻止了他们的竞争对手追赶上他们。因为即使你追上了 Blackwell 的进度,对吧,他们已经在 12 个月内进入了下一代。他已经在规划未来两到三代产品,因为它只在未来两到三年内。
迪伦·帕特尔: 好笑的是,英伟达的很多人会说,Jensen 的计划不会超过一年到一年半。因为他们会改变东西,并且会以极快的速度部署它们,对吧?其他所有半导体公司都需要数年时间才能部署、进行架构更改。
主持人比尔: 你说如果他们停滞不前,就会有竞争。他们的脆弱之处在哪里?或者说,市场上必须出现什么情况,其他替代方案才能占据更多的工作负载份额?
迪伦·帕特尔: 是的,所以英伟达的主要问题是,嘿,这个工作负载很大,对吧?它花费超过了 1000 亿美元。对于最大的客户来说,他们有多个客户的支出达到数十亿美元。我可以雇佣足够的工程师来研究如何在其他硬件上运行我的模型,对吧?现在,也许我无法研究如何在其他硬件上进行训练,但我可以研究如何在其他硬件上进行推理。
因此,英伟达在推理方面的优势实际上在软件方面较小,但在硬件方面要大得多,嘿,他们只是拥有最好的硬件。现在,最好的硬件意味着什么?它意味着资本成本、运营成本,然后意味着性能,对吧?性能 TCO(总拥有成本)。英伟达在这里的整个护城河是,如果他们停滞不前,性能 TCO 就不会增长。
但有趣的是,他们正在增长,对吧?就像 Blackwell 一样,它不仅快得多、快得多得多——在大型模型推理方面快了 10 到 15 倍,因为他们针对非常大型的语言模型进行了优化——而且他们还决定,嘿,我们要稍微降低利润率,因为我正在与亚马逊的芯片、TPU 和 AMD 以及所有这些东西竞争。
他们也决定降低利润率。因此,在所有这些因素之间,他们决定他们需要推动性能 TCO 不仅仅是每两年提高 2 倍,对吧?你知道,摩尔定律,对吧?他们决定他们需要推动性能 TCO 可能是每年提高 5 倍,对吧?至少 Blackwell 是这样,我们将看看 Rubin 会怎样。但性能 TCO 在一年内提高 5 倍以上是惊人的速度。
然后你再叠加其他因素,比如,人工智能模型实际上在相同大小的情况下变得更好了。交付大型语言模型的成本正在下降,这将刺激需求。
主持人比尔:  好的。为了澄清你刚才说的一件事,或者至少是重申一下,我想确认一下,当你提到软件对于训练更重要时,你的意思是说,CUDA在训练方面比在推理方面更具差异化。
迪伦·帕特尔:  我认为投资者社区中的很多人都把CUDA称为英伟达所有软件的一个层级。实际上有很多层的软件,但为了简单起见,关于网络或在交换机上运行的东西,或在各种各样的东西上运行的东西,包括集群管理方面的东西,我们都统称它们为CUDA。但是,所有这些软件都非常难以复制。事实上,除了超大规模数据中心外,没有其他人有部署来做这件事。几千个GPU就像微软的推理集群,而不是训练集群。
当你谈到训练的难度时,这涉及到用户不断地进行实验。研究人员会说:“嘿,让我们试试这个,让我们试试那个。”他们通常没有时间去优化和榨取性能,所以他们依赖英伟达的性能,能够在现有的软件栈上或者只需很少的努力就达到很好的效果。然而,当我们转向推理时,微软正在部署五六个模型,而这背后是数十亿美元的收入,对吧?OpenAI的所有收入,加上他们在Copilot中的收入,加起来就是非常可观的数字——比如100亿美元的推理收入。他们这里有100亿美元的收入,他们部署了五个模型,比如GPT-4,4o,4o Mini,以及推理模型O1等等。
值得注意的是,他们部署的模型非常少,而且这些模型大约每六个月更换一次。在那个时间范围内,他们可以优化性能。微软也在其他竞争对手的硬件上部署了GPT风格的模型,比如AMD,以及他们自己的一些硬件,但主要依赖AMD。他们可以用软件来优化这一点,因为他们可以投入数百甚至数千个工程小时来解决这个问题,因为它是一个非常统一的工作负载
主持人布拉德:  好的。我想让你评论一下这张图表。这是我们今年早些时候展示的一张图表,我认为当时对我和Jensen来说是一个重要时刻,当时他在,我认为是在中东。他第一次说,不仅在未来四年内我们将有价值一万亿美元的新AI工作负载,而且在未来四年内我们还将有一万亿美元的CPU替换和数据中心替换工作负载。
因此,这是一个尝试建模的结果。我们在播客中和他一起提到了它,他似乎表示这个方向是对的,对吧?他仍然认为这不仅仅是关于……因为世界上有很多关于预训练的争论,以及如果预训练没有继续快速发展会怎么样。这似乎表明他们正在进行很多与预训练无关的AI工作负载,而且他们还有所有这些数据中心替换工作。
你相信吗?我听到很多人反对数据中心替换,并说人们不可能用一堆英伟达的GPU重建一个CPU数据中心。这根本没有任何意义。然而,他的论点是,越来越多的应用程序,甚至像Excel和PowerPoint这样的应用程序,正在变成机器学习应用程序,并且需要加速计算。
迪伦·帕特尔:  英伟达长期以来一直在推动加速器用于非AI工作负载。专业可视化,例如皮克斯,使用大量的GPU来制作每一部电影。所有这些西门子工程应用和其他类似的任务都使用GPU。但是,我会说它们与AI相比只是沧海一粟。我想指出的另一方面,可能有点争议的是,IBM大型机每个周期的销量和收入都更高。所以是的,硅谷没有人使用大型机或谈论它们,但它们仍在增长。我认为同样的原则也适用于CPU和经典工作负载。仅仅因为AI出现了,并不意味着网络服务或数据库就会放缓。
现在,发生的情况是,经典工作负载的增长线正在下降,而AI的增长线正在快速上升。此外,当讨论现在启用AI的应用程序时——比如带有Copilot的Excel或带有Copilot的Word——它们仍然保留了所有经典操作。你不会消除之前拥有的东西。例如,西南航空公司不会停止预订航班;他们只是应用AI分析来增强他们的定价模型。我认为这方面仍然是一致的。
然而,有一个被误解的替代因素。鉴于AI的广泛部署和数据中心紧张的供应链,很明显数据中心有更长的交付周期和供应链,这很不幸。这种动态解释了为什么我们看到了像埃隆·马斯克正在做的事情这样的举措。因此,当考虑在这种情况下如何获取电力时,一种选择是像CoreWeave这样的公司与加密货币挖矿公司接洽,清理掉它们,并用GPU重新利用这些空间,类似于他们在德克萨斯州正在做的事情。
一些公司正在追求的另一种选择是延长CPU服务器的折旧期限,这个期限在短短几年内从三年延长到了六年。这背后的原因是英特尔的进展停滞不前。实际上,旧的英特尔CPU与以前相比并没有实质性的改进。然而,在过去的几年里,AMD和ARM的CPU出现了重大进展,英特尔也开始纠正其方向。目前,亚马逊数据中心的大部分CPU是2015年至2020年间制造的24核英特尔CPU,它们使用或多或少相似的架构。
我现在可以升级到128核或192核的CPU,其中每个CPU核心的性能都更高。通过用一个服务器替换六个服务器,我实际上凭空创造了额外的电力容量。旧的,已经使用六年以上的老服务器,可以简单地报废和移除。通过对新服务器进行资本支出,我可以更换这些过时的系统。每次这样做,我都可以添加另一个AI服务器。因此,虽然存在一定程度的替代,但必须注意的是,我仍然需要保持总容量。如果我投资新服务器,总容量可能会由更少的机器提供。总的来说,市场预计不会萎缩;它将继续增长,尽管增长速度远不及AI。AI正在推动这种需要更换旧系统以获得更多电力的行为
主持人布拉德:  嘿,比尔,这让我想起萨蒂亚上周在播客上提出的一个观点,我看到这个观点被反复播放了很多次,我认为它被相当误解了。他上周在播客上说,他的问题是电力和数据中心受限,而不是芯片受限。我认为这更多是对真正瓶颈的评估,即数据中心和电力,而不是GPU,因为GPU已经上线了。所以我认为你刚才提出的论点,有助于澄清这一点。
主持人比尔:  嗯,在我们深入研究英伟达的替代方案之前,我想我们应该先谈谈你上一篇文章中写到的关于预训练规模的争论,迪伦,我们已经谈论了很多了。但是,你为什么不给我们谈谈你对那里正在发生的事情的看法呢?我认为伊利亚是最可信的提出这个观点的AI专家,然后这个观点被重复和交叉分析了很多次。
主持人布拉德:  比尔,我再重复一下,我认为伊利亚说得对,你知道,数据是人工智能的化石燃料,我们已经消耗了所有的化石燃料,因为我们只有一个互联网。因此,我们从预训练中获得的巨大收益将不会重现。是的。
主持人比尔:  一些专家曾预测数据会在一两年前耗尽。所以,这个论点出现并非毫无依据。无论如何,我们听听迪伦问了什么。
迪伦·帕特尔:  所以,预训练的缩放定律非常简单,对吧?你获得更多的计算资源,然后将其投入到模型中,它就会变得更好。现在,那是什么?它可以分解为两个轴,对吧?数据和参数,对吧?你知道,模型越大,数据越多,效果就越好。实际上存在一个最佳比例,对吧?因此,谷歌发表了一篇名为“Chinchilla”的论文,其中说明了数据与参数(即模型大小)的最佳比例。这就是缩放的原理。
现在,当数据耗尽时会发生什么?嗯,我并没有获得更多的数据,但是我继续增加模型的大小,因为我的计算预算在不断增长。但这有点不公平,对吧?我们几乎、几乎、几乎没有开发视频数据,对吧?因此,还有大量的未开发的数据。只是视频数据比文字数据包含的信息多得多,对吧?
因此,你就把这些信息给丢弃了。但我认为这是那里误解的一部分。更重要的是,文本是最有效的领域,对吧?人类通常是这样,是的,一图胜千言,但是如果我写一百个字,你可能就能理解。
主持人比尔:  弄清楚事实,而且大多数视频的文字记录已经存在了。
迪伦·帕特尔:  是的,许多视频的文字记录已经存在了。但无论如何,数据就像一个很大的轴。现在,问题是这仅仅是预训练,对吧?所谓预训练模型不仅仅是预训练,对吧?其中有很多要素。因此,人们一直在谈论,嘿,推理时的计算。是的,这很重要,对吧?如果你能弄清楚如何让模型思考,并递归地像这样,我换个方式思考。
你懂的,就像,你不会雇一个实习生,然后说,嘿,X 的答案是什么?或者你不会雇一个博士,然后说,嘿,X 的答案是什么?你会说,去研究一下这个。然后他们回来给你带来一些东西。因此,推理时的计算很重要。但真正更重要的是,当我们不断获得越来越多的计算资源时,如果数据耗尽,我们能否改进模型?答案是,在某些领域,你几乎可以凭空创造数据,对吧?
所以这就是围绕缩放定律的整个争论。我们如何创造数据,对吧?那么伊利亚的公司最有可能在做什么?米拉的公司最有可能在做什么?OpenAI 的首席技术官阿米尔·阿姆拉迪,以及所有这些公司都在关注什么?他们有 Noam Brown,他就像是巡回演讲中主要的推理专家之一,基本上到处演讲。他们在做什么?他们说,嘿,我们仍然可以改进这些模型。是的,在推理时花费计算资源很重要,但是我们在训练时做什么?
你不能只是告诉一个模型多思考,它就会变得更好;你必须在训练时做很多事情。因此,这意味着,我采用模型,我采用我拥有的目标函数,对吧?81 的平方根是多少?现在,如果我问很多人,“81 的平方根是多少?”很多人可以回答,但我敢打赌,如果他们多思考一下,会有更多的人可以回答。
也许这是一个简单的问题。但是你说,嘿,让现有模型来解决这个问题。让它运行多次排列组合。从,比如说,五开始,并且任何时候不确定,就分支成多个。你从数百个“所谓的”展开或生成数据的轨迹开始。其中大部分是垃圾,对吧?你把它修剪成,嘿,只有这些路径得到了正确的答案。
好的,现在我把这个输入,而这现在是新的训练数据。我在每个我可以进行功能验证的领域中都这样做。功能验证,即,嘿,这段代码可以编译。嘿,我代码库中的这个单元测试,我如何生成解决方案?我如何生成函数?你在许多不同的领域反复这样做,在这些领域中你可以从功能上证明它是真实的。
你生成所有这些数据,扔掉绝大部分,但是现在你有一些可以用来训练模型的思维链,然后它将学习如何更有效地做到这一点,并在其之外推广,对吧?这就是整个领域。现在,当谈到缩放定律时,其收益递减点还没有被证明,顺便说一下。
因为更像是,嘿,缩放定律是双对数坐标轴,即,要获得下一次迭代,需要 10 倍的投资。好吧,10 倍的投资,你知道,从 3000 万美元到 3 亿美元,3 亿美元到 30 亿美元是相关的。但是当山姆想从 30 亿美元增加到 300 亿美元时,就有点难筹集到那笔钱了,对吧?这就是为什么最近几轮融资有点像,哦,糟糕,我们不能在下一次运行中花费 300 亿美元。
所以问题是,好吧,那只是一个轴。我们在合成数据方面进展如何?哦,我们还处于非常早期的阶段,对吧?我们可能在合成数据上花费了数千万美元。
主持人比尔:  对于合成数据,你在某些领域使用了限定词。当他们发布 O1 时,它在某些领域也有类似的限定词。我只是说这两个扩展轴在某些领域表现更好,而在其他领域则不那么适用,我们需要弄清楚这一点。
迪伦·帕特尔:  是的,我认为人工智能有趣的事情之一是,在 2022 年和 2023 年,随着扩散模型的发布,随着文本模型的发布,人们会说,哦,哇,艺术家是最倒霉的,而不是技术工作。实际上,这些东西在技术工作方面很糟糕。但是,有了合成数据和测试时间计算这个新轴,实际上,我们在哪些领域可以教导模型?我们无法教它什么是好的艺术,因为我们无法从功能上证明什么是好的艺术。我们可以教它编写非常好的软件。我们可以教它如何进行数学证明。我们可以教它如何设计系统,因为存在权衡,而且这不是非此即彼的事情,尤其是在工程系统方面。这是你可以从功能上验证的东西。这是否有效?
主持人比尔:  或者这是正确的还是错误的。你可以对输出进行评分,然后模型可以更频繁地迭代。没错。这回到了 AlphaGo 的例子,以及为什么它是一个可以允许新颖的走法和玩法的沙盒,因为你可以遍历它并进行合成运行。你可以让它不断地创造和创造。
主持人布拉德:  戴上我作为公共投资者的帽子,这里,在展望 2025 年时,关于英伟达以及这个预训练的问题,世界存在着很多紧张气氛,对吧?而且,如果事实上,我们已经看到了,我们已经摘取了预训练带来的 90% 的低垂果实,那么人们真的需要购买更大的集群吗?
我认为世界上存在一种观点,尤其是在伊利亚的评论之后,认为,你知道,预训练的 90% 的好处已经消失了。但是,当我看到 Hocktan 本周在他们的财报电话会议上的评论时,所有超大规模企业都在构建这些百万 XPU 集群。我看到 XAI 的评论,他们将构建 20 万或 30 万个 GPU 集群。
你知道,据报道,Meta 正在构建更大的集群,微软也在构建更大的集群。你如何调和这两件事,对吧?如果每个人都是对的,并且预训练已经死了,那么为什么每个人都在构建更大的集群?
迪伦·帕特尔:  所以,扩展规模,对吧,又回到了什么是最佳比例的问题?什么是,我们如何继续增长,对吧?仅仅盲目地增加参数数量,当我们没有更多数据,或者数据很难获取时,比如因为是视频数据,不会给你带来太多收益。而且,如果从对数图来看,对吧?你需要10倍的投入才能获得下一次提升,对吧?所以当你同时考虑这两点时,就会觉得,糟糕,我需要投入10倍的资源。而且我可能无法获得全部收益,因为我没有足够的数据。但是,数据生成方面,我们还处于非常早期的阶段,对吧?
主持人布拉德:  所以关键是,我仍然能够挤出足够多的收益,使其获得正回报,特别是当你看到竞争态势时,你知道,我们的模型与竞争对手的模型相比。所以,从10万到20万或30万,即使,你知道,预训练中那种巨大的一次性收益已经过去,这也是一个理性的决定。
迪伦·帕特尔:  更确切地说,获得那样的提升,其成本呈指数级增长,或者说是对数级的增长。没错。所以收益仍然存在。就像收益仍然存在,但是关于OpenAI模型的所谓“猎户座已经失败”的说法,他们并没有发布猎户座,对吧?他们发布了O1,这有点像是不同的轴。部分原因是,嘿,你知道的,因为这些数据问题,但部分原因是因为他们没有扩大10倍,对吧?因为从4扩大到10倍,实际上就像,他们没有头绪。
主持人比尔:  这就是Gavin的观点,对吧?我们稍后问一下Gavin。我认为,这件事变得有争议的原因之一是,Dario(Anthropic CEO)和Sam(OpenAI CEO)在此之前,至少我听到的他们的说法是,他们只是要构建下一个最大的东西,并获得相同的收益。他们给人留下了这样的印象。所以当我们到了你描述的这个阶段,情况并非如此。然后人们就会想,哦,这意味着什么?这让他们开始警觉。
迪伦·帕特尔:  所以我认为他们从未说过,Chinchilla缩放定律能带给我们AGI,对吧?他们有过缩放。缩放意味着你需要大量的计算资源。而且猜猜怎么着?如果你必须生成大量数据,并且扔掉大部分,因为,嘿,只有一部分路径是好的,你会在训练时花费大量的计算资源,对吧?
这有点像是新的方向,我们可能在未来六个月到一年内看到模型的改进速度比过去一年更快。这是合成数据生成的新方向,而我们能投入的计算量是巨大的;我们仍然处于缩放定律中,对吧?我们不在这里;我们还没有把数十亿美元花在合成数据生成、功能验证和推理训练上。我们只花费了数百万,数千万美元,对吧?
那么,当我们扩大规模时会发生什么?这是一个新的资金投入方向。当然,还有测试时的计算,也就是在推理时花费时间以获得越来越好的结果。这是有可能的,事实上,这些实验室的许多人都认为,未来一年的收益或未来六个月的收益将会更快,因为他们通过一种新的方法解锁了这个新的方向,对吧?
这仍然是规模化的体现,对吧?因为这需要巨大的计算量。你生成的数据比网络上存在的数据多得多,然后你扔掉其中大部分。但是你生成了如此多的数据,以至于你必须不断地运行模型,对吧?
主持人比尔:  你认为这种方法最适用于哪些领域?比如,合成数据在哪些地方最有效?也许你可以同时说一下优点和缺点,比如一个它会非常好的场景和一个它不会那么好的场景。
迪伦·帕特尔:  好的。是的。所以我觉得这又回到了我们能功能性验证哪些是真或假的问题?我能给哪些打分?而且不是主观的。你在大学里修哪些课程,你拿到成绩单后,你会觉得,哦,这是扯淡。或者你会觉得,哎呀,我搞砸了。对吧。
主持人比尔:  这就像对输出进行确定性评分。
迪伦·帕特尔:  没错,正是如此。所以如果可以进行功能验证,那就太好了。如果必须进行判断,对吧,有两种方式来判断输出。一种是不使用人类。这有点像是整个AI的发展历程。他们最初在做什么?他们投入大量人力来创建好的数据,来标记数据。但现在,人类无法为这种级别的数据进行扩展。人类每天都在互联网上发帖,而我们已经挖掘殆尽了。
那么,哪些领域适用呢?这些领域是,比如,在谷歌,当他们将数据推送到他们的任何服务时,他们都有大量的单元测试。这些单元测试确保一切正常工作。那么,为什么我不能让LLM生成大量的输出,然后使用这些单元测试来给这些输出评分呢?因为它是通过或失败。然后你也可以用其他方式来给这些输出评分,比如,它运行需要这么长时间,而不是那么长时间。
还有其他领域,比如图像生成。嗯,实际上,很难说哪张图片对你来说看起来更漂亮,而不是对我来说。我可能喜欢一些日落和鲜花,而你可能喜欢海滩。你无法真正争论什么是好。所以没有功能验证;只有主观判断。这种客观性是我们找到清晰之处的地方。
那么,我们在哪里有客观评分呢?我们在代码、数学和工程领域有。虽然这些可能很复杂,比如,工程不仅仅是确定最佳解决方案。它还关乎理解我们拥有的所有资源,并认识到所有这些权衡。我们通常会得出结论,我们认为这是最好的权衡,对吧?这通常是工程最终的目的。
我仍然可以查看所有这些维度。然而,在主观领域,比如,写这封邮件的最佳方式是什么?或者与这个人谈判的最佳方式是什么?这就很难了。这不是客观的东西。
主持人布拉德:  你从超大规模计算公司那里听到了什么?我的意思是,他们都在说他们明年的资本支出将增加。我们正在建设更大的集群。你知道,这实际上正在发生吗?那边正在发生什么?
迪伦·帕特尔:  是的,所以我觉得当你查看华尔街对资本支出的估计时,它们都太低了,你知道的,基于几个因素,对吧?所以当我们追踪世界上每个数据中心时,你会发现,尤其是微软,现在还有Meta和亚马逊,以及许多其他公司,对吧?但尤其是那些公司在数据中心容量上的支出是惊人的。随着电力上线,你可以很容易地追踪到这一点,如果你查看所有不同的监管文件,以及卫星图像,我们所做的所有这些事情,你可以看到,嘿,他们将拥有这么多数据中心容量,对吧?所以它正在加速。你打算往里面填充什么,对吧?事实证明你必须把它填满。你可以对每个GPU的功耗做出一些估计,所有加起来,所有一切,对吧?Satya说他会稍微放慢一点速度,但他们已经签署了明年租用的协议,对吧?在某些情况下。
主持人布拉德: 他说,这部分原因是他预计明年上半年的云收入将会加速增长。因为他说,我们将拥有更多的数据中心容量,而我们目前正受限于容量。
迪伦·帕特尔: 所以再次回到那个,规模化是否已死的问题?那为什么马克·扎克伯格要在路易斯安那州建一个 2 吉瓦的数据中心?为什么亚马逊要建这些多吉瓦的数据中心?为什么谷歌,为什么微软要建多个吉瓦的数据中心,还要花几十亿、几十亿美元购买光纤将它们连接起来?因为他们认为,嘿,我需要靠规模取胜。所以,我要用超高带宽把所有数据中心连接起来。这样我就可以让它们像一个数据中心一样工作,对吧?为了一个目标,对吧?所以,当你看那些最了解情况的人在花什么钱时,这种规模化已死的说法就不攻自破了
主持人比尔: 你一开始谈了很多关于英伟达在用于预训练的大型、一致性集群方面的差异化。你能看到任何类似于,我想,有人可能会非常看好推理,并不断扩建数据中心,但他们可能原本计划从 10 万个节点增加到 20 万个,再到 40 万个,但现在可能不会这样做了。如果这种预训练是真实存在的。你看到任何能让你了解这一方面的信息吗?
迪伦·帕特尔: 当你考虑训练神经网络时,它涉及前向传播和反向传播。前向传播本质上是生成数据,其计算量是反向传播的一半,而反向传播是更新权重。当您考虑这种合成数据生成、对输出进行评分,然后训练模型的新范式时,您将在执行反向传播之前进行多次前向传播。什么能为用户服务?那也只是一次前向传播。事实证明,训练中有很多推理。事实上,训练中的推理比更新模型权重更多,因为你需要生成数百种可能性,然后只在其中一部分进行训练。这种模式非常重要。
另一个非常重要的模式是,是否需要将模型的每个训练环节都放在一起。答案是什么?这取决于你在做什么。如果你处于预训练模式,那么你可能需要将所有东西都放在一起。但是,为什么微软在第一季度和第二季度签署了这些大规模的光纤协议?为什么他们要在威斯康星州、亚特兰大、德克萨斯州和亚利桑那州等地建设多个类似规模的数据中心?他们已经认识到,研究支持适当地分配工作负载的能力。一个数据中心可能不会为用户服务,但可以运行推理,丢弃大部分输出,因为只有一部分根据评分有价值
此外,他们还在其他领域更新模型的同时这样做。因此,整个训练,特别是预训练的范式并没有放缓;只是每一代和渐进式改进的成本都呈对数增长。人们正在探索其他方法来继续这一进展,而不会导致支出呈对数增长。事实上,通过这种训练和推理的推理,可以在不增加相关成本的情况下实现模型对数级的改进。现在,我计划两者都做,因为每个模型的飞跃都能释放巨大的价值。
主持人布拉德: 我觉得非常有趣的一件事是,我今天早上在 CNBC 上听到克莱默在谈论,这是否是 2000 年的思科?我星期天晚上在奥马哈和比尔共进晚餐。他们显然是公用事业的大投资者,他们正在关注数据中心的建设情况。
他们说,这是否是 2000 年的思科?所以我的团队调出了思科 2000 年的图表,我们会在播客上展示。但是,你知道,他们的市盈率峰值达到了 120 左右,对吧?如果你看看收入和 EBITDA 的下降情况,你知道,它的市盈率压缩了 70%。市盈率从 120 降到了接近 30 的水平。
所以我在晚宴的谈话中说,英伟达今天的市盈率是 30。不是 120,对吧?所以你必须认为,要么是从这里开始市盈率压缩 70%,要么是他们的收入会下降 70%,要么是他们的收益会下降 70%。
你知道,为了发生像思科一样的事件,我们都对那件事有创伤后应激障碍。我的意思是,该死,我也经历过。没有人想重蹈覆辙。但是当人们做出这种比较时,我认为这是不了解情况的。这并不是说不会出现回调。
但是,考虑到你刚刚告诉我们的明年扩建情况,考虑到你告诉我们的规模定律仍在继续,你知道,当人们在谈论英伟达时听到与思科的比较时,你怎么看?
迪伦·帕特尔: 是的,所以我认为有几件事是不公平的,对吧?思科的收入很大一部分是通过私人和信贷投资来资助电信基础设施建设的。当我们看英伟达的收入来源时,很少一部分是基于私人或信贷的。在某些情况下,是的,它是基于私人或信贷的,比如 CoreWeave,但 CoreWeave 只是由微软提供支持。资本来源存在显著差异。
另一件事是,在互联网泡沫的顶峰时期,特别是考虑到通货膨胀因素,进入该领域的私人资本比今天大得多。尽管人们说风险投资市场正在疯狂,并对所有这些公司给予了巨额估值,但事实是,风险投资市场和私人市场甚至还没有真正进入。
你猜怎么着?来自中东和这些主权财富基金的私人市场资金还没有进来;它几乎没有进来。为什么他们不会有更多的支出呢?资本来源存在显著差异:人类有史以来最盈利的公司的正现金流,与投机性支出的信贷相比。
所以,我认为这是一个重要的方面。这也给了它一个旋钮;这些盈利的公司会更加有价值。
主持人比尔: 我认为美国企业对人工智能的投资比他们在互联网时代更有信心。
主持人布拉德: 也许我们可以稍微转换一下话题。您已经多次提到推理时间推理了。这显然是扩展智能的新向量。我最近读到您的一些分析,关于推理时间推理的计算密集程度比简单的预训练,也就是扩展预训练要高得多,对吧?您能跟我们说说吗?我们这里有一张非常有趣的图表,关于为什么会这样,我们也会发布。但是,您能先从计算消耗的角度,告诉我们推理时间推理是什么,为什么它的计算密集程度如此之高。因此,得出结论,如果这实际上将继续作为智能的新向量进行扩展,那么看起来它将比以前的计算密集程度更高。
迪伦·帕特尔:  是的,所以预训练可能会减缓速度或者成本太高,但合成数据生成和推理时间计算还有其他方面的问题。推理时间计算,表面上听起来很棒,对吧?我不需要花费更多时间训练模型。但如果你仔细思考一下,这其实非常令人担忧。这不是你想要扩展的方式;你只是因为不得不这样做。
想想看:GPT-4 的训练花费了数亿美元,但它正在创造数十亿美元的收入。所以当你说,“嘿,微软的资本支出太疯狂了”,是的,但他们对 GPT-4 的投入相对于他们现在获得的投资回报率来说是非常合理的。当你说,“嘿,我想要下一个突破”,如果我只是投入大量资金来训练一个更好的模型,这听起来很棒。但是,如果我不需要花费那么多资金,并且可以在产生收入的时候,而不是在训练之前部署这个更好的模型,那也听起来很棒。
然而,这带来了一个很大的权衡。当你进行推理时,模型会生成大量内容,而答案只是其中的一部分。现在,当你打开 ChatGPT 并使用 GPT-4 时,你发送一些内容,然后收到回复,对吗?你发送一些内容,然后收到回复。所有生成的内容都会发送给你。现在,在推理阶段,OpenAI 不想向你展示所有内容,但是有一些开源的中文模型,比如阿里巴巴和 DeepSeek,它们发布了一些模型,当然没有 OpenAI 那么好,但是它们展示了推理过程是什么样的。
OpenAI 会生成大量内容,有时会在中文和英文之间切换。它不断地思考,反复推敲各种可能性,比如,“我应该这样做吗?我应该把它分解成这些步骤吗?”然后,它给出一个答案。表面上看,这似乎很棒——我不需要在研发或资本上投入更多。然而,想想这意味着什么。例如,我们已经做了很多测试的一个简单的事情是生成代码。我用几百个词描述一个函数,然后得到一个一千个词的回复。这很棒,但我按 token 付费。
当我用任何其他推理模型做这件事时,我发送相同的请求——几百个 token——但得到大约一千个 token 的回复。在中间,可能有 10,000 个 token 在“思考”。这 10,000 个 token 的思考实际上意味着什么?这意味着模型生成了 10 倍的 token。如果微软通过推理产生 100 亿美元的收入,并且利润率良好,那么他们的成本大约是几十亿美元。模型越好,你就可以收取更高的费用。然而,当我将输出从 1,000 个 token 增加到 11,000 个 token 时,我为改进的输出花费了更多。
这种成本增加具有欺骗性,因为它不仅仅是增加 10 倍的问题,因为正如某些图表所示,相同的模型架构每个 token 的成本可能显著增加。例如,如果我生成大约 1,000 个 token,为了保持用户体验和速度,我可以将许多用户的请求分组。我可以在一台 NVIDIA 服务器上分组超过 256 个用户的请求。
当我切换到一个进行更多推理的模型时,比如 O1 模型,它会生成 10,000 个 token,这会影响上下文长度,而上下文长度不是免费的。注意力机制需要大量内存,导致最大批处理大小相比之前的例子要小得多。我不仅需要生成 10 倍的 token,而且现在生成的每个 token 都使得能够同时使用服务器的用户数量减少了 4 到 5 倍
因此,成本增加是惊人的。对于单个用户,每个 token 的生成成本高出 4 到 5 倍,当你考虑到我生成了 10 倍的 token 时,你可以说,O1 型号在输入到输出方面的成本增加了大约 50 倍
主持人比尔:  我知道 10 倍的增长,因为它最初的版本就是对数刻度。
主持人布拉德:  我不知道。好吧,它是 10 倍。而且,你知道,为了服务相同数量的客户,你必须拥有更多的计算资源。
主持人比尔:  好吧,这里有好消息和坏消息,布拉德,我认为这就是迪伦告诉我们的。如果你只是销售 NVIDIA 硬件,而且它们仍然是架构,这就是我们的扩展路径,你将会消耗更多。
主持人布拉德:  没错。但是,除非他们能将成本转嫁给最终消费者,否则另一端产生收入的人的利润率将会被完全挤压。
迪伦·帕特尔:  关键是你确实可以将成本转嫁给最终消费者,因为,嘿,这真的不是说,哦,它在某个基准测试上提高了 X%。而是说,它以前根本做不到,而现在可以了。
主持人布拉德:  对吧?所以,他们现在正在进行一个测试,将他们向最终消费者收取的费用提高了 10 倍,你知道吗?
迪伦·帕特尔:  而且是每个 token 增加 10 倍,对吧?请记住,他们还要为 10 倍的 token 付费。所以实际上,你知道,消费者每次查询的费用是以前的 50 倍。但他们从中获得了价值,因为现在它突然可以通过某些基准测试,例如 SWE-Bench,对吧?软件工程基准测试,对吧?这只是生成像样的代码的基准测试,对吧?有前端 Web 开发,对吧?你付给前端 Web 开发人员多少钱?你付给后端开发人员多少钱?与此相比,嘿,如果他们使用 O1 会怎样?他们可以输出多少代码?他们可以输出多少内容?是的,查询很昂贵,但它们远不及人工,对吧?因此,我获得的每个生产力提升级别,每个能力飞跃都是它可以执行的一类全新任务,对吧?因此我可以为此收费,对吧?所以,这就像一个轴,是的,我花费更多才能获得相同的输出,但是你获得的输出不是相同的。
主持人布拉德:  我们是高估还是低估了企业级对 O1 模型的需求?你觉得呢?
迪伦·帕特尔:  我认为,O1 型的模型还处于早期阶段;人们甚至还没有真正理解它。O1 就像他们刚刚破解了密码并正在使用它。但是你猜怎么着?现在,在一些匿名基准测试中,有一种叫做 LMSys 的东西,它就像一个竞技场,不同的 LLM 在这里竞争。人们投票给它们,而且现在有一个谷歌模型正在进行推理。它还没有发布,但很快就会发布。
Anthropic 也将发布一个推理模型。这些公司将会相互超越。他们现在在推理方面的计算花费很少,在训练时间方面,他们看到了一个非常明确的投资路径,这意味着他们可以迅速扩大其能力。例如,如果我只花费了 1000 万美元,我可以在计算方面跃升两到三个对数级,因为我已经拥有了资源。
你知道,我可以将推理的投入从 1000 万美元增加到 1 亿美元,然后再从 10 亿增加到 100 亿美元,而且时间很短。我们在这些模型中看到的性能改进将是巨大的,尤其是在未来六个月到一年的时间里,在某些我们有功能验证器的基准测试中。
主持人比尔: 嗯,问个快速的问题。我们答应过要讨论这些替代方案,所以最终肯定会谈到。但是,如果我们回顾一下,我们已经多次用互联网浪潮做过类比了。当所有风险投资支持的互联网公司刚起步时,他们都使用Oracle和Sun。而五年后,他们都不再使用Oracle或Sun了。有人认为,这从一个开发沙箱的世界变成了一个优化的世界。这种情况会再次发生吗?这里有相似之处吗,还是没有?如果能稍微谈一下为什么后端的价格如此陡峭而又便宜,比如,你知道的,稍微退一步,或者说通过稍稍降低标准可以节省的价格是惊人的。
迪伦·帕特尔: 是的,是的,现在的情况是,比如O1模型非常昂贵,如果你降到4o,就会便宜很多,如果你再降到4o mini,那就非常便宜了。为什么?因为现在我在和4o mini竞争,我在和Llama竞争,我在和DeepSeek竞争,我在和Mistral竞争,我在和阿里巴巴竞争,而且我在和大量的公司竞争。
主持人比尔: 所以你认为这些是市场出清价格吗?
迪伦·帕特尔: 我认为,此外,还有推断小型模型相当容易的问题,对吧?我可以在一个AMD GPU上运行Llama 70B。我可以在一个NVIDIA GPU上运行Llama 70B,很快,它也将可以在亚马逊的Neutronium上运行,对吧?我可以在一个芯片上运行这个模型。这是一个非常容易的问题,我不会说非常容易,仍然很难,但是它比运行复杂的推理或者非常大的模型要容易得多,对吧?所以这里有区别,对吧?还有这样一个事实,即,实际上有15家不同的公司提供基于Llama、阿里巴巴、DeepSeek和Mistral等不同模型的API推理服务。
主持人布拉德: 你指的是Cerebras、Groq、Fireworks和所有其他公司。
迪伦·帕特尔: 它们一起运作,你知道,所有那些不使用自己硬件的公司。当然,Groq和Cerebras正在做他们自己的硬件,也做这个。但是这里的市场,利润率很差,对吧?你知道,当我们还在讨论推理的竞相压低价格的时候,Mistral发布了他们的Mistral模型,这个模型在去年年底非常具有革命性,因为它在开源领域达到了前所未有的性能水平,从而迅速压低了价格,对吧?
因为每个人都在竞争API,我作为一个API提供商,能为你提供什么?为什么你不从我这里换到他那里?为什么?因为它非常具有可替代性,对吧?我仍然在同一个模型上获得相同的令牌。因此,这些公司的利润率要低得多。微软在OpenAI模型上获得了50%到70%的毛利率,而这还是在他们分给OpenAI利润的情况下。类似地,在其最近一轮融资中,Anthropic的毛利率约为70%,但那是因为他们拥有这个模型。
当你降到这里,使用OpenAI或Anthropic的这个模型的人就不多了,因为他们可以直接从Llama获取权重,放在自己的服务器上,反之亦然。他们可以去找众多有竞争力的API供应商之一,其中一些是风险投资支持的并且在亏损。这里竞争激烈。所以,你不仅说我退一步,问题也更容易了,如果模型小10倍,那么运行成本就会便宜15倍。
除此之外,去除毛利率使得运行成本不仅仅便宜15倍,而是便宜30倍。这就是“一切都是商品吗?”的有趣之处。当然不是,但这里有一个巨大的竞争,如果你将其部署在服务中,那对你来说会很好。此外,如果你是实验室之一,你必须拥有最好的模型,否则你什么都不是,对吧?你看到了很多公司试图构建最好的模型但失败了。
主持人布拉德: 可以说,你不仅必须拥有最好的模型,你实际上还必须有愿意为最好的模型付费的企业或消费者,对吧?因为归根结底,最好的模型意味着有人愿意为你支付这些高额利润,对吧?而那要么是企业,要么是消费者。所以我认为,你很快就会将能够参与最佳模型竞争的人缩小到少数几个。
迪伦·帕特尔: 我认为,在模型方面,是的。我认为在谁愿意为这些模型付费方面,我认为会有更多人愿意为最好的模型付费。当我们在内部使用模型时,我们会让语言模型检查每一份监管文件和许可证,以查找数据中心的信息,并提取出来,告诉我们应该在哪里查找,不应该在哪里查找。我们只使用最好的模型,因为它太便宜了。我从中获得的数据,我从中获得的价值要高得多。
我们目前实际上使用的是Anthropic的Claude 3.5 Sonnet,新的模型,只是因为O1在某些任务上好很多,但不一定在监管文件和许可等方面,错误的成本要高得多。
开发人员也是如此。如果我能将湾区一位年薪30万美元的开发人员的效率提高20%,那就非常可观了。如果我能让一支100人的开发团队用75人或50人完成同样的工作,或者我可以交付两倍的代码,那么使用最昂贵的模型是值得的。O1,相对于4o而言,即使再贵,仍然非常便宜。
在社会中,智能的成本非常高,这就是为什么智能工作是薪水最高的工作——白领工作,对吧?如果你能降低智能成本或增强智能,那么就会有一个很高的市场出清价格。有些人可能会认为O1很贵,可能会倾向于在特定智能水平下选择最便宜的,但每次我们突破新的智能水平时,不仅仅是可以完成更多任务。
我认为它可以显著扩展可以完成的任务模式。很少有人可以使用GPT2和GPT3,但很多人可以使用GPT4。当我们达到下一代所看到的那种质量飞跃时,可以使用它的人数和它可以完成的任务将会显著扩大。因此,它可以增强和提高生产力的白领工作数量将会增长,从而,该令牌的市场出清价格也将随之增加。
主持人比尔: 太有趣了。我还可以提出另一种观点,即大量使用的人,比如用它来替换大量客户服务电话的人,可能会倾向于尽可能减少支出。当然。并最大化他们围绕此事物构建的附加价值,数据库写入和读取。
迪伦·帕特尔: 当然。我喜欢的一个有趣的事情,呃,我们做的计算是,如果你拿出英伟达四分之一的出货量,然后说所有这些都将用于推断Llama 7b,你可以让地球上的每个人每分钟获得一百个令牌,对吧?嗯,或者说,每秒一百个令牌。你给地球上的每个人每秒一百个令牌,这很荒谬。嗯,你知道,如果我们只是部署Llama 7b质量的模型,我们已经过度建设了,这简直太可笑了。现在,如果我们部署可以增强工程师能力、提高生产力、帮助我们更快地构建机器人或自动驾驶汽车或其他东西的东西,那么这就是一个非常不同的计算,对吧?这就是全部的意义所在。是的,小型模型是存在的,但它们太容易实现了。
主持人比尔:  而且可能,这两件事可能都是真的。
迪伦·帕特尔:  对,我们将会在各处运行大量的小型模型,但它们的计算成本非常低。是的。
主持人布拉德:  有道理。比尔和我早些时候在谈论你过去报道过的硬盘时就讨论过这个问题。但是如果你看看内存市场,它一直都是一个繁荣与萧条并存的市场。过去的理念是你总是在内存价格接近峰值时出售,在低谷时购买。你不会在中间的任何时候持有它们。它们的市盈率非常低。我指的是海力士和美光。当你考虑到向推理时间计算的转变时,似乎这些芯片对内存的需求,正如黄仁勋多次谈到的那样,正在发生长期上升的趋势,对吧?因为如果它们在进行这些传递(pass),你知道的,就像你说的,为了推理时间进行10次、100次或1000次传递,随着上下文长度的扩展,你肯定需要越来越多的内存。所以,请和我们谈谈,你对内存市场有什么看法。
迪伦·帕特尔:  好的,为了更好地阐述一下背景,推理模型会输出成千上万个令牌(tokens)。当我们研究Transformer时,注意力机制,对吧,Transformer的圣杯,也就是它如何理解整个上下文,会急剧增长。而KV缓存,即记录上下文含义的内存,会呈平方级增长。因此,如果我将上下文长度从10增加到100,它不仅仅是10倍的增长,而是更多。所以,你把它看作,像今天的推理模型,它们会思考10,000个、20,000个令牌。当我们达到,嘿,复杂的推理会是什么样子?模型将达到思考数十万个令牌的地步。然后,这一切都是一个思维链,或者可能是一些搜索,但它会思考很多,而这个KV缓存将会膨胀。
主持人比尔:  所以你的意思是内存的增长速度可能比GPU更快。
迪伦·帕特尔:  当你看英伟达的销售成本时,它客观上确实如此,他们最高的销售成本不是台积电,这可能是很多人没有意识到的。实际上是HBM内存,主要是HBM。
主持人比尔:  那可能只是目前的情况。
迪伦·帕特尔:  是的,现在有三家内存公司,对吧?三星、SK海力士和美光。英伟达主要使用SK海力士。这在整个内存市场中是一个巨大的转变。因为从历史上看,它一直是商品化的,对吧?也就是说,它是可替代的,无论我从三星还是SK Linux还是美光购买。
主持人比尔:  插槽是可替换的吗?
迪伦·帕特尔:  是的。即使现在,三星也遭受了非常严重的打击,因为有一家中国内存制造商,长江存储(CXMT),他们的内存不如西方,但还算可以。在低端内存中,它是可替代的。因此,低端内存的价格已经大幅下跌。在HBM方面,三星几乎没有份额,对吧?尤其是在英伟达那里。这对三星的打击非常大。尽管它是世界上最大的内存制造商,但每个人都一直认为,如果你提到内存,就会觉得,是啊,三星的技术稍微领先一点,他们的利润率稍微好一点,他们做得非常好。但现在,情况并非如此。在低端市场,他们受到了打击,而在高端市场,他们无法打入;他们不断尝试,但不断失败。
另一方面,像SK海力士和美光这样的公司正在将其大量产能从商品DRAM转换为HBM。现在,HBM仍然是可替代的,如果有人达到了某个技术水平,他们可以用美光替换海力士。所以,从这个意义上说,它是一种商品。然而,由于推理需要更多的内存,而且H100到Blackwell的销售成本中,HBM成本的增长速度快于尖端硅的成本增长速度。
你现在看到的是这种巨大的转变或动态。这不仅适用于英伟达的GPU,也适用于超大规模厂商的GPU,以及加速器,如TPU和亚马逊的Tranium等。
主持人比尔:  而SK的毛利率高于其他内存公司。
主持人布拉德:  没错,没错。至少如果你听黄仁勋描述的话,你会发现并非所有的内存都是一样的,对吧?所以,不仅仅是今天的产品更加差异化,今天的产品还关联着更多的软件,而且还涉及到它如何集成到整个系统中,对吧?回到供应链的问题,听起来好像都是商品化的。但在我看来,至少存在一个问题。它是否正在发生结构性变化?我们知道长期趋势是向上且向右的。
主持人比尔:  我听你的意思是,也许吧。它可能足够差异化了。
迪伦·帕特尔:  差异化到非商品化的程度。有可能。我认为还有一点需要指出的是,有趣的是,HBM的毛利率并不算太高。它们还不错,但并不算太高。实际上,普通的、高端的非HBM服务器内存的毛利率比HBM更高。原因在于英伟达对内存制造商的压力非常大,对吧?他们想要更快、更新一代的内存——HBM要越来越快——但服务器市场的其他用户则不一定如此。
那么,这表明什么呢?这表明,即使三星可能达到了四级或三级,或者他们之前拥有的任何级别,他们仍然无法达到海力士现在的水平。竞争对手在做什么呢?AMD和亚马逊在说什么?AMD明确表示,他们的推理GPU更好,因为他们提供更多的内存和更大的内存带宽。这实际上是AMD的GPU被认为更好的唯一原因。片上?HBM内存。好的,也就是封装在芯片上的,对吧?具体来说,是的。
当我们观察亚马逊时,他们在reInvent大会上的整体信息,如果你真的和他们交谈,当他们宣布Trinium 2时,暗示着从供应链的角度来看,这看起来,如果你眯着眼睛看,非常像一个亚马逊的基础TPU。它还不错,对吧?但它真的很便宜,并且它提供市场上每美元最多的HBM容量和每美元最多的HBM内存带宽。因此,对于某些应用来说,使用它是非常有意义的。
这代表着一个真正的转变:嘿,我们可能设计得不如英伟达好,但我们可以提供更多封装在芯片上的内存,对吧?这只是一个多向量问题的一个向量。他们的网络性能远不如英伟达,他们的软件也远不如英伟达。他们的计算单元也远不如英伟达先进。但是,天哪,他们的每美元内存带宽更高。
主持人比尔:  好吧,这就是我们希望在时间耗尽之前讨论的内容,那就是讨论这些替代方案,你刚刚开始谈论。因此,尽管有那么多惊人的理由表明似乎没有人愿意与英伟达作对,但许多人正在尝试,对吧?我甚至听到一些人谈论尝试,但他们还没有尝试,比如OpenAI一直在谈论他们自己的芯片。其他玩家做得怎么样?比如,你怎么评价?我们先从AMD开始,因为它是一家独立的公司。然后再谈谈一些内部项目。
迪伦·帕特尔: 是的,所以AMD之所以能很好地竞争,是因为从硅工程的角度来看,他们非常出色,对吧?他们很有竞争力。他们狠狠地击败了英特尔。没错,他们是击败了英特尔,但也就那样,你知道的。
主持人比尔: 他们最初的位置非常低,在20多年里发展起来的。
迪伦·帕特尔:  这段时间的发展相当惊人。所以AMD确实很优秀,但他们在软件方面有所欠缺。AMD根本不知道该如何做软件。我认为他们在这方面投入的开发人员非常少。他们不愿花钱为自己建立一个GPU集群,以便开发软件。这简直太疯狂了,对吧?
就像英伟达,你知道,全球前500强超级计算机列表并不那么重要,因为大多数最大的超级计算机,比如埃隆和微软的那些,都没有在榜单上。然而,英伟达在Top500超级计算机榜单上有多台超级计算机,而且他们完全在内部使用这些计算机来开发软件——无论是网络软件、计算软件还是推理软件。他们会测试所做的所有更改,然后推出更新。
例如,如果XAI因软件问题而出现故障,英伟达可以在第二天或两天后像时钟一样推送更新。这至关重要,因为在训练模型时,有很多东西会不断地出错。相比之下,AMD并没有这样做,我不明白他们为什么不投资一个大型集群。
另一个问题是,他们根本不知道如何进行系统级设计。他们一直以与英特尔竞争为前提,认为如果他们制造出比英特尔更好的芯片,他们就会成功。他们的重点仍然放在硬件上,而软件和系统级设计在当今的竞争格局中同样重要。
主持人比尔:  一切都是可替代的。他们大概读过相关资料。我的意思是,英伟达并没有隐瞒他们是一家系统公司的事实,所以他们大概读过。
迪伦·帕特尔: 是的,所以他们收购了这家名为ZT Systems的系统公司。但是,你知道,整个机架规模架构,谷歌在2018年用TPU v3部署了它。是吗?
主持人比尔:  有没有哪些大型云服务商如此渴望AMD成功,以至于正在与他们共同开发?
迪伦·帕特尔:  所以,大型云服务商都有自己的定制芯片计划,但他们也在以不同的方式帮助AMD,对吧?所以,Meta和微软正在帮助他们开发软件,对吧?但这还不够,AMD并没有赶上或者接近赶上(英伟达)。他们正在帮助AMD了解他们应该做什么,对吧?所以,人们意识到的另一件事是,即使我拥有世界上最好的工程团队,也无法告诉我问题是什么,对吧?问题是这个、这个、这个。它有这些权衡。AMD不了解软件开发。它不了解模型开发。它不知道推理经济学是什么样子。所以,他们怎么知道该如何权衡?我是否应该在芯片上稍微用力一点,然后我必须在其他方面退让?或者我到底该怎么做?但是,大型云服务商正在提供帮助,但这还不足以让AMD与英伟达处于相同的进度上。
主持人比尔:  AMD在未来一年内,在AI收入方面会取得多大的成功?他们可能会在哪些类型的插槽上获得成功?
迪伦·帕特尔:  是的,我认为他们在微软那里的成功会比今年少得多。他们在Meta那里的成功也会比今年少。这是因为法规使得AMD的GPU实际上对中国来说相当不错,因为它们的设计方式。但总的来说,我认为AMD会做得不错。他们会从市场上获利。他们不会像人们希望的那样一飞冲天。他们的总收入份额明年将会下降。好吧。但他们仍然会做得非常好,对吧?数十亿美元的收入可不是什么小数目。
主持人比尔:  让我们谈谈谷歌的TPU。你之前说过它的工作负载排名第二,而且似乎领先很多。是的,它稳居第二位。
迪伦·帕特尔:  是的,这就是为什么整个系统和基础设施的事情重要得多的原因。单个TPU本身并没有那么令人印象深刻。它令人印象深刻,对吧?它具有良好的网络连接,良好的架构等等。它的内存还可以,对吧?它本身并没有那么令人印象深刻。但是,当你说,嘿,如果我花费X美元,我的系统,谷歌的TPU看起来很棒,对吧?
所以,谷歌为英伟达可能没有过多关注的方面进行了工程设计。他们芯片之间的互连在某些方面具有竞争力,甚至更好,但在其他方面则不如英伟达。他们一直在与全球网络领导者博通合作,与他们一起制造芯片。自2018年以来,他们一直在进行这种规模化的发展,而英伟达则在谈论GB200和NVL72。TPU目前可以扩展到8000个。虽然它不是一个交换机,而是一个点对点连接,并且存在一些技术上的细微差别。所以,你不能只看这些数字,但这很重要。
另一方面是,谷歌多年来一直在使用水冷技术,而英伟达直到这一代才意识到他们需要水冷。谷歌还引入了英伟达GPU所不具备的可靠性水平。一个公开的秘密是,问问人们云端或部署中GPU的可靠性有多高。他们会说,哦,天哪,它们算是可靠的吧。尤其是在最初,你必须拿出大约百分之五的坏的。
主持人布拉德:  为什么TPU在谷歌以外的商业上没有更成功?
迪伦·帕特尔:  我认为谷歌将他们的很多软件保留在内部,而他们本应该将其开源,因为,谁在乎呢?你知道,这是其中的一个原因。你知道,DeepMind使用的很多软件根本无法在谷歌云上使用。
主持人比尔:  即使他们在谷歌云上的产品也相对于AWS有这种偏见。
迪伦·帕特尔:  是的。第二,它的定价有点,并不是说它的标价高得离谱,就像谷歌云上GPU的标价也很离谱一样。但是,你作为一个人知道,当我租用一个GPU时,我会告诉谷歌,嘿,你知道,等等。你会说,好吧,你可以通过第一轮谈判来降低价格。但接着你会说,好吧,看看甲骨文、微软、亚马逊或CoreWeave,或者现有的80个新云服务商的报价。谷歌可能不会像这些公司那样匹配价格,但他们会降低价格,因为你知道,然后你会说,哦,好吧,如果我想租用一个H100一年或两年,市场清算价格是多少?哦,是的,我可以用两美元多一点的价格租到,而不是报价的四美元。而TPU的价格就在那里。你不知道你可以得到这个价格。因此,人们看到标价,就会觉得,算了。
我看不出它会有什么理由成功。所以,第三点是,谷歌最好将所有TPU用于内部。顺便说一句,微软租用的GPU很少,对吧?实际上,他们通过将GPU用于内部工作负载或用于推理获得更多的利润,因为销售tokens的毛利率为50%到70%,对吧?销售GPU服务器的毛利率低于此,对吧?
主持人布拉德:  他们说过,在他们引用的100亿美元中,没有任何一部分是来自外部GPU租赁的。
主持人比尔:  如果Gemini作为API变得极具竞争力,那么你间接地会有第三方使用谷歌的TPU。这个说法准确吗?
迪伦·帕特尔:  是的,绝对准确。广告、搜索、Gemini应用,所有这些都使用TPU。所以并不是说你没有用到它。你上传的每一个YouTube视频都会经过一个TPU,对吧?它也会经过他们为YouTube定制的其他芯片。但是,很多东西都涉及到TPU,但你永远不会直接租用它,对吧?因此,当你观察租赁市场时,据我所知,只有一家公司贡献了谷歌70%以上的TPU收入,那就是苹果,对吧?而且我认为关于为什么苹果讨厌英伟达,这里面有个很长的故事。但是,你知道,那可能是另一个故事了。
主持人比尔:  你刚刚做了一篇关于Tranium的深度报道。为什么你不做一份亚马逊版的,就像你对谷歌做的那样?
迪伦·帕特尔:  是的,有趣的是,亚马逊的芯片就是亚马逊,我称之为亚马逊的基础TPU,对吧?我之所以这么称呼它,是因为,是的,它使用了更多的硅材料。是的,它使用了更多的内存。是的,网络在某种程度上与TPU相当,对吧?它是一个四乘四乘四的金牛座结构。他们只是在效率方面做得不高,比如说,他们在有源电缆上花费更多,对吧?因为他们与Marvell和Alchip合作开发自己的芯片,而不是与网络领域的领导者博通合作,而博通可以使用无源电缆,对吧?因为他们的30s型号非常强大。
这里还有其他一些问题。他们的30s速度较低,并且消耗了更多的硅面积。关于Tranium的这些因素,你可以观察并认为,如果它是商用硅,那会很糟糕。但事实并非如此,因为亚马逊并没有支付博通的利润率,对吧?他们支付的是较低的利润率。他们没有支付HBM的利润率;他们总体上支付的是较低的利润率,对吧?他们向Marvell支付HBM的利润率。你知道,他们采用了所有这些不同的策略来降低价格,使得他们的亚马逊基础TPU,也就是Tranium 2,对最终客户和他们自己来说,在每美元的HBM、每美元的内存带宽方面都非常划算,并且它的世界大小为64(可支持64颗芯片互联)。
现在,亚马逊无法在一个机架内完成,实际上需要两个机架才能实现64。每个芯片之间的带宽远低于英伟达的机架,并且每个芯片的内存也低于英伟达,每个芯片的内存带宽也低于英伟达。但是你不需要为服务器支付每个芯片超过4万美元的价格;你支付的价格明显更低,对吧?比如每个芯片5000美元,对吧?对于亚马逊来说,这简直是天壤之别。然后,他们将成本转嫁给客户,对吧?因为当你购买英伟达的GPU时,就体现了价格上的巨大差异。
这种设置有其合理的用例。正因如此,亚马逊和Anthropic决定制造一个拥有40万个Tranium芯片的超级计算机,对吧?那是40万个芯片,对吧?回到整个规模定律已死的说法——不,他们正在构建一个40万芯片的系统,因为他们真的相信这一点,对吧?然而,在同一个地点放置40万个芯片对于服务推理来说没有用处;相反,它对于构建更好的模型更有用。你希望你的推理分布得更广泛。
所以,这对他们来说是一项巨大的投资。虽然从技术上讲,它并没有那么令人印象深刻,但我确实忽略了一些令人印象深刻的方面。它如此便宜且具有成本效益,我认为这对亚马逊来说是一步不错的棋。
主持人布拉德:  也许为了总结一下,我想稍微转移一下话题,谈谈你认为25和26年会发生什么,对吧?例如,在过去的30天里,我们看到博通股价飙升,而英伟达的股价却下跌了很多。我认为在过去的30天里,两者之间大约有40%的差距。你知道,由于博通是定制ASIC的参与者,人们开始质疑英伟达是否面临着很多新的竞争,以及预训练的改进速度是否不如以前。展望25年和26年,你对客户的看法是什么?你认为在您所覆盖的领域中,哪些事情最被误解?哪些想法最好?
迪伦·帕特尔:  我认为有几件事,第一,博通确实赢得了多个定制ASIC的订单。不仅仅是谷歌。Meta正在加速,主要还是用于推荐系统,但他们的定制芯片将会变得更好。还有像OpenAI这样的其他参与者也在制造芯片。还有苹果,他们并没有完全与博通一起制造整个芯片,但其中一小部分将由博通制造。他们有很多的胜利。
现在,这些胜利都不会在25年实现。其中一些将在26年实现。而且它是定制的ASIC,所以它可能会像微软的那样失败,表现不佳,因此永远无法量产。或者它可能会非常好,或者至少像亚马逊的那样具有良好的性价比,而且可能会大量量产,对吧?所以这里存在风险。但是博通拥有定制ASIC业务,这是其一。
第二,非常重要的是,网络方面非常重要,对吧?是的,英伟达正在销售大量的网络设备。但是当人们制造自己的ASIC时,他们会做什么,对吧?是的,他们可以选择亚马逊或者不选,但他们也需要将许多芯片连接在一起。抱歉,他们可以选择博通或者不选,他们也可以选择Marvell或者其他许多竞争对手,比如Alchip和GUC。
博通在制造NVSwitch的竞争对手方面具有非常好的优势,许多人认为NVSwitch是英伟达在硬件方面相对于其他所有人的最大竞争优势之一。而且博通正在制造一个NVSwitch的竞争对手,他们将把它投放市场,对吧?许多公司将使用它。不仅仅是AMD会使用NVSwitch的竞争对手,但他们自己不制造,因为他们没有这方面的技能,对吧?他们会去找博通来制造它,对吧?
主持人布拉德:  那么,当你考虑今天的半导体市场时,为我们做个判断吧。你有Arm、博通、英伟达、AMD等等。当我们进入25和26年时,整个市场会继续上涨吗?从目前的水平来看,谁最有能力做得好?谁被高估了?谁被低估了?
迪伦·帕特尔:  我认为,我长期购买了博通的股票,但在接下来的六个月里,谷歌TPU的购买量会略有放缓,因为他们没有数据中心空间。他们想要更多,但他们确实没有地方来放置它们。所以我们实际上可以看到有一点停顿。但是人们可能会忽略这一点。除此之外,问题是谁会赢得哪些定制ASIC的交易?Marvell会赢得未来的几代产品吗?博通会赢得未来的几代产品吗?这些产品会有多大的规模?超大规模企业是否能够将越来越多的东西内部化?或者不呢,比如,谷歌试图离开博通已经不是什么秘密了,他们可能会成功,也可能会失败,对吧。
主持人布拉德:  不仅仅是像…跳出博通的框架。我说的是英伟达和其他所有公司。你知道,我们这个行业经历了辉煌的两年,对吧,背后有顺风。2025年是整合之年吗?你认为这个行业还会继续表现良好吗?
迪伦·帕特尔:  是的,我认为超大规模企业的计划非常明确,他们明年将投入更多的资金,对吧?因此,网络设备厂商、ASIC 供应商和系统供应商的生态系统将会表现良好,无论是英伟达、迈威尔、博通、AMD,或者其他的,总会有一些表现得更好。人们真正应该关注的问题是2026年:支出会继续吗?
我们现在的表现很好。英伟达明年的增长率将会非常惊人,对吧?这将带动整个组件供应链的增长。它将带动很多人一起发展。但2026年就像是清算的时候,对吧?人们还会像这样继续消费吗?这一切都取决于模型是否能持续改进。因为如果它们没有持续改进——我的观点是,它们实际上在明年会更快地改进——那么就会发生一次大的,你知道的,清理事件,对吧?但这不会发生在明年,对吧?
我想说的另一个方面是,新云市场正在进行整合,对吧?我们正在跟踪和接触80家新云公司,我们看到他们有多少GPU。问题是,现在,如果你看看H100的租赁价格,它们正在暴跌,对吧?不仅仅是在这些新云公司,对吧?过去,你必须支付,你知道的,签订四年协议并预付25%。你会签订风险投资协议,然后购买一个集群,就差不多这样。你会租一个集群,对吧?
现在,你可以获得为期三个月、六个月的协议,而且价格比过去Hopper的四年、三年协议都要好得多,对吧?最重要的是,这不仅仅是通过新云公司。亚马逊的按需GPU定价也在下降。现在,它仍然相对非常昂贵,但价格下降得非常快。在这80家新云公司中,并非所有公司都能生存下来。也许会有五到十家能活下来。那是因为其中五家是主权的,对吧?另外五家实际上是市场参与者。
主持人比尔: 具有竞争力的。有多少比例的行业人工智能收入来自那些可能无法生存的新云?
迪伦·帕特尔:  是的,所以你可以粗略地说,超大规模企业占收入的50%左右,50%到60%。其余的是新云和主权人工智能。因为企业购买GPU集群的数量仍然相当低。而且他们最终会发现外包给新云更好。当他们可以通过安全审查时,他们可以与像CoreWeave这样的某些公司合作。
主持人布拉德:  是否会出现这样一种情况,即在2026年,你看到行业销量实际上低于2025年,或者英伟达的销量实际上比2025年大幅下降?
迪伦·帕特尔:  因此,当你看到即将推出的定制ASIC设计以及英伟达的芯片时,收入,每个芯片中的内容都在爆炸式增长。制造Blackwell的成本是制造Hopper成本的两倍以上,对吧?因此,英伟达可以制造相同的数量,显然他们正在略微降低利润率,但英伟达仍然可以出货相同的数量并实现大幅增长。
主持人布拉德:  所以,与其关注单位销量,不如说,是否存在一种情况,即2026年行业收入下降,或者英伟达的收入在2026年下降?
迪伦·帕特尔: 在2026年,关键在于,模型是否会继续变得更快、更好?超大规模企业是否愿意将他们的自由现金流降至零?我认为他们愿意,顺便说一句。我认为Meta和微软甚至可能会将他们的自由现金流降至接近零,并进行大量支出。然而,这只有在模型持续改进的情况下才会发生。这是需要考虑的一个方面。
第二个方面是我们是否会看到来自尚未进行大量投资的资金来源的大量涌入,例如中东、新加坡的主权财富基金、北欧和加拿大的养老基金。这些实体有能力开出巨额支票。虽然他们尚未这样做,但他们未来可能会这样做。如果情况继续好转,我真的相信像OpenAI、XAI和Anthropic这样的公司将继续筹集越来越多的资金,保持增长势头。
这个问题不仅限于OpenAI目前的80亿美元收入,这个数字明年可能会翻倍甚至更高。他们需要筹集更多资金才能进行更多的支出。这种支出对于保持他们的增长引擎运转至关重要。一旦一个竞争对手开始支出,比如埃隆和他的风险投资,就会迫使其他公司也加大支出。这创造了一种竞争动态,公司会感到有压力去匹配或超过彼此的投资,以避免被像埃隆这样的领导者超越。
因此,我们发现自己陷入了一种“胆小鬼博弈”,公司被迫更积极地支出。对支出不足的恐惧导致了一种局面,即使他们的业务利润很高,首席执行官也可能被视为失败。相反,如果他们过度支出,股东可能会不满,但在这种高风险的环境中,这通常被认为是可以接受的风险,在这种环境中,200亿美元甚至500亿美元的投资已成为战略的一部分。
主持人比尔:  你可以从两个方面来解读,因为如果这成为行动的理由,那么过度投资的可能性会增加。
迪伦·帕特尔:  当然。而且每个泡沫都会让我们过度投资。
主持人布拉德:  对我来说,你说这一切都取决于模型的改进。我想进一步回顾上周萨蒂亚对我们说的话。这最终归结于购买GPU的人产生的收入。就像他上周说的那样,我每年都会购买一定数量的GPU,这与我当年或未来几年能够产生的收入相关。所以,他们不会在这些收入之前过度支出。
所以他正在观察,你知道,他今年有100亿美元的收入。他知道这些推理收入的增长率,他和艾米正在预测他们能够负担得起多少支出。我认为扎克伯格也在做同样的事情。我认为桑达尔也在做同样的事情。
因此,如果你假设他们是理性行事的,那么不仅仅是模型的改进。还有使用他们服务的底层企业的采用率。还有消费者的采用率,以及消费者愿意为使用ChatGPT、Claude或其他服务支付的费用。
所以,你知道,如果你认为基础设施支出将以每年30%的速度增长,那么我认为你必须相信,底层推理收入,无论是消费者方面还是企业方面,也将以相似的速度增长。
迪伦·帕特尔:  不过,肯定存在超前支出的因素,对吧?这是在考虑某个时间点的支出,而不是,你知道的,我预计服务器未来五年的收入会是多少,对吧?所以我认为这肯定是一个因素,但绝对是这样,对吧?模型,关键就在于模型变得更好才能产生更多收入,对吧?然后才能部署。所以我认为我是同意这个观点的,但人们确实在超前于计划地支出。
主持人布拉德:  嗯,这正是它精彩的地方。很高兴你能来。我的意思是,你知道的,作为一位分析师同行,你们做了很多深入的研究。恭喜你们的业务取得成功。我认为你们为整个生态系统提供了很多重要的信息。
关于“忧虑之墙”,我思考的一件事是,我们都在谈论和寻找泡沫。有时候,这反而阻止了泡沫的真正发生。但作为投资者和分析师,我看到的情况是,确实有人在支出,但收入并不与之相称,就像你说的。全新的局面。支出远远超前。
另一方面,坦率地说,我们上周从萨蒂亚那里听到了类似的说法。他说,听着,我已经有了收入。我已经说过我的收入是多少。我没有从其他人那里听到过同样的说法,对吧?所以,看看2025年谁能拿出实际的收入,这会很有趣。
我认为你已经看到一些规模较小的二三线模型正在改变商业模式,逐渐退场,不再参与这场投资军备竞赛。我认为这是创造性破坏过程的一部分,但很高兴你能来。
是的,很高兴比尔你能亲自来这里。期待明年再见。太棒了。谢谢你们。谢谢。
主持人布拉德:   提醒大家,这只是我们的观点,不是投资建议。
来源:瓜哥AI新知
声明:此公号(ID:Fintech_Education)发布内容和图片的目的在于传播更多信息,版权归原作者所有,不为商业用途,如有侵犯,敬请作者与我们联系。

【声明】内容源于网络
0
0
金融科技教育网
金融科技教育网主要关注如下内容:金融科技人才培养(认证课程、公开课、行业论坛、番钛客大赛、人才对接);内容(学术前沿、创新技术)行业(金融科技、银行科技、保险科技等);技术(人工智能、大数据、区块链、云计算、5G、物联网等)。
内容 883
粉丝 0
金融科技教育网 金融科技教育网主要关注如下内容:金融科技人才培养(认证课程、公开课、行业论坛、番钛客大赛、人才对接);内容(学术前沿、创新技术)行业(金融科技、银行科技、保险科技等);技术(人工智能、大数据、区块链、云计算、5G、物联网等)。
总阅读569
粉丝0
内容883