作者丨刘伊伦 杨依婷
GTC 2026,主角不再是 GPU。黄仁勋用一整场发布会证明:英伟达的战场已经转移。
过去十年,英伟达用 CUDA 生态和 Tensor Core,将 GPU 推至 AI 计算的中心位置,GPU 既是训练引擎,也是推理主力,包揽一切。
而在这场被视为 AI 基础设施风向标的发布会上,叙事重心开始从“更强的 GPU",转向“如何组织算力”。
从 Vera Rubin 平台,到 LPX 推理机架,再到尚未完全展开的 Feynman 架构,一条清晰的主线逐渐浮现:AI 正在从以训练为中心的阶段,过渡到以推理为核心的阶段,而对应的基础设施,也发生了从通用走向分工的变化。
数据中心也被重新定义为"AI 工厂”,衡量标准也从单卡性能,转向 Token 产出效率。
但这套新叙事也留下一串未解的追问:LPU 的入场是否宣告推理不是 GPU 的主场?专用架构与通用算力如何分层共处?Token 能否真正成为 AI 时代的硬通货?而英伟达从"算力垄断"转向"生态闭环"的转身,究竟是前瞻布局,还是存量优势的被动防守?
为了厘清这场变局的技术逻辑与市场动因,我们和多位产业专家及投资人深度交流之后,获得了在英伟达新叙事之下产业里的分歧与共识。
同时,我们也特邀 3 位行业顶级专家,于 3 月 19 日 11:30 开讲,对 GTC 2026 进行深度解析,全方位拆解算力产业的核心趋势、投资机遇与破局方向。
LPU 入局,GPU 不是推理时代的「主角」了吗?
在 GTC 2026 上,黄仁勋再次重申了他对 AI 基础设施演进的判断:"AI 正从‘模型训练时代’加速迈入‘模型推理时代’,整个 AI 技术栈的组织方式,都开始被重新定义。”
在 AI 进入推理的时代,英伟达更新了“全家桶”,包括 Vera Rubin 平台、LPX 推理机架以及代号为 Feynman 架构在内的一整套新叙事,从单一 GPU 主导,转向多处理器协同的"AI 工厂”。
如果说过去十年,GPU 是 AI 时代当之无愧的“主角”,那么在这套新蓝图中,GPU 不再试图包揽一切,而是与 CPU、LPU 及专用推理单元共同构成分层分工的计算体系。英伟达正在主动拆解“通用算力”的神话,并试图用更复杂但更高效的架构,去承接一个以推理为中心、以 Agent 为核心的新周期。
雷峰网采访的业内专家对此分析道:
LPU 的推出,在一定程度上,是英伟达承认 GPU 并非推理最优解。并且,理论上专用推理场景可完全脱离 GPU,但英伟达仍将 LPU 与 GPU 捆绑组合,既是生态延续,也避免对原有路线的“打脸”。在市场层面,头部大厂推理需求仍会坚定走向自研与 ASIC 路线,追求能效与成本自主可控。英伟达 GPU+LPU 方案,重点客户可能是中小互联网客户。
——芯片产业专家张翔
在 Transformer 推理中,Prefill、Decode、Orchestration 三个阶段开始由不同硬件承担,LPX 的出现,本质上是对 Decode 阶段的一次专门优化。GPU 依然是训练和复杂推理的最优解,但在低延迟推理这个细分赛道上,专用架构开始显示出优势。GPU 不会被 LPX 取代,而是各司其职。
——芯片产业人士姚金鑫(J 叔)
现在市场上 LPU 的呼声很高,但其短期内难以成为英伟达版图中的主力。黄仁勋在演讲的过程中一直强调的是 LPU 的性能,确不清楚其售价,所以 LPU 的经济性存疑,其单芯片集成 500MB 片上 SRAM,而 SRAM 的价格通常是 HBM 的 6-8 倍,这一定会抬高 LPU 的成本,并且受限于工具链融合的滞后性,其更多扮演推理场景的补充角色。
——资深产业研究员刘雨嫣
LPX 的入场不一定宣告 GPU 推理时代的终结,而是推理任务分层化的信号,GPU 仍坐镇复杂推理与视频生成等算力密集型阵地,LPX 则专攻低延迟、轻算力的细分场景。未来数据中心的图景是多元处理器各安其位,GPU“全能选手”退位,推理霸权让位于专业化分工。
CPX 未被提及很让人意外,此前业内大部分观点认为此次发布会是 CPX 负责 Prefill、LPU 负责 Decode 的组合,从原理上看,Prefill 不依赖显存、Decode 更吃显存,CPX 和 LPU 本应是最优解,因此本次完全不提 CPX,让人有些意外(超预期不是意外的意思)。
——分析师李维
Vera 与 Rosa 的亮相,配合超节点架构中 CPU 配比的显著提升,标志着英伟达正将 Agentic AI 的爆发视为架构重构的核心变量,其 CPU 叙事的核心,是 AI 工厂内部的算力编排权,而非与其他厂商竞争,短期内对 x86 格局难有实质冲击。
此外,从系统架构的角度来看,Vera CPU 的推出对 x86 影响同样有限,Vera 是面向 AI 推理与训练设计的专用计算单元,而 x86 作为通用计算架构,仍要承载操作系统、数据库及海量传统软件的运行。Arm 的精简指令集恰好契合 AI 场景的需求,不需要兼容过往几十年的软件栈,可以砍掉冗余逻辑,专注于高性能计算本身。
——芯片产业专家孙旭
从国内算力市场格局来看,英伟达此番推理性价比优势,对本土市场冲击有限,国产替代的核心叙事逻辑依旧稳固,并不会因此发生动摇。
——分析师张楠
Token 成本全球最低,英伟达就能吞下「1 万亿美元」?
“推理拐点已经到来。”GTC 2026 上,黄仁勋这句话宣告,Token 已成为新的硬通货。
黄仁勋认为,数据中心不再是仓库,而是生产 Token 的"AI 工厂”,每瓦吞吐量决定生死。而英伟达的 Token 成本全球最低,即便对手架构免费,面对英伟达也没有性价比。他算了一笔账:建一个 1GW 工厂,空转 15 年摊销就达 400 亿美元,所以必须运行最强的系统才能摊薄成本。
基于这套逻辑,他抛出了一个让人沸腾的数字:“到 2027 年 AI 芯片营收将至少达到 1 万亿美元。”相比去年预测翻倍,因为“过去两年计算需求增长了一百万倍。”
而 1 万亿美元这一数字,还只覆盖 Blackwell 和 Vera Rubin 两条产品线,若叠加 CPU、Groq、存储及网络设备,这一规模或将达到 1.25 万亿美元。
当“全球最低 Token 成本”成为护城河,这套经济学真能支撑 1 万亿美元营收吗?
雷峰网采访的业内专家对此分析道:
当黄仁勋把"Tokens/W"作为衡量 AI 工厂产出的核心度量衡时,其实背后还有一层更重要的产业深意,算力竞争的度量体系,正在从芯片走向系统,从峰值参数走向端到端能效。从某种程度上,GTC 2026 公开验证了这种系统视角,因为当 NVIDIA 自己都开始把叙事中心放到 AI Factory 上时,行业就已经在从 AI 计算芯片中心主义走向计算系统中心主义。
基于这个逻辑,我认为英伟达目前的估值并不高,甚至偏低。它卖的是整个系统,在系统级优化上,没有谁能比它做得更好。唯一可能构成竞争的对手还是谷歌 TPU,其他厂商基本追不上,这个格局到现在也没变。
——芯片产业人士姚金鑫(J 叔)
阿里成立 ATH、英伟达 GTC 也将 Token 视为接下来的业务核心,两大巨头的同时发力证明,行业的核心争夺,正是 Token 的生产、计量与分配主导权。Token 全链路效率直接决定 AI 产业的经济性,谁能掌握最低的 Token 生产成本与最高效的流转体系,谁就掌握未来十年的产业定价权。如同电力时代的电网、互联网时代的带宽,AI 时代正围绕 Token 的创造、输送与应用,正在形成一个规模潜力远超想象的全新产业生态。
——九章云极技术专家陈昊
英伟达的护城河正在从“算力垄断”转向“生态闭环”。过去一年,其战略重心明显上移——通过绑定上游独立供应商与下游 AI 数据中心,构建垂直整合的产业链控制力,既对冲大厂自研芯片的替代风险,又以系统级交付抬高竞争门槛。但长期盈利能力仍面临结构性压力,英伟达终将回归高端制造业的常态利润区间,只是时间早晚问题。
——分析师李维
AI 已从聊天机器人升级为驱动社会生产力的核心引擎,Token 是驱动 AI 运转的基础要素,如同电力之于工业时代,阿里、英伟达等巨头意在成为 AI 时代的能源工厂。未来 AI 竞争的关键在于 Token 生产能力,具备规模化 Token 生产能力的企业,才能在 AI 竞争中占据优势。大模型训练仅占用少量算力,推理环节才是算力消耗的主力,需持续生成 Token,Token 的成本高低直接决定 AI 的普及与社会渗透程度。类比移动互联网边际成本为零的规模效应,只有 Token 成本降至如水、电般低廉、可被普通用户轻松负担,AI 时代才会真正全面到来。
——分析师张楠
NVLink 6、CPO 登场,透着英伟达的「焦虑」
英伟达在 Vera Rubin 平台上部署了第六代 NVLink 互连架构,实现 GPU 之间的高速扩展连接。
与此同时,英伟达还推出了全球首个 CPO 光电共封装的 Spectrum-X 以太网交换机,通过与台积电合作的 CoWoS 先进封装技术,将光引擎直接集成于交换芯片封装体内,实现电信号与光信号的片上直转,目前已进入量产阶段。
黄仁勋在主题演讲中表示,随着 AI 模型体量指数级增长、智能体推理需求全面爆发,未来数据中心将进化为一台单机架级超级计算机越来越像一台超级计算机。
雷峰网采访的业内专家对此分析道:
英伟达正以 Vera CPU、Rubin GPU、NVLink 6、ConnectX-9、BlueField-4、Spectrum-6 与 Groq 3 LPU 的“全家桶”组合重构系统解决方案,叙事重心从单颗芯片转向系统级交付。此外,英伟达还在尝试构建联盟,成员包括台积电、美光、三星、海力士乃至英特尔等企业,试图以联盟策略锁定先进封装与存储资源,这也恰恰暴露了英伟达的焦虑:如此庞杂的产品矩阵,仍未能追平谷歌简洁架构的效能。
谷歌以 7nm 的 ASIC,以及 OCS 与以太网的极简组合,实现 Token 成本与吞吐效率的双重领先,组网规模轻松突破 NVL72 的天花板。当对手用“减法”定义下一代基础设施,英伟达的“加法”生态反而成为规模扩张的包袱。
——资深产业研究员刘雨嫣
当前两大变数值得关注:一是随着产业变革,关键厂商开始沿着价值链整合;二是受地缘政治影响,从中国大陆向外转移模块产能。近期,英伟达向 Lumentum 投资 20 亿,既是为了分担供应链地缘风险,也向上游高价值器件进行了整合。而原模块供应商,也加快脚步在国外布局产能,应对份额压力。
从 CPO 目前落地的进程来看,其推广较为保守主要来自多个方面:一是维护便利性极其成本较高,不及可插拔光模块,也会推高用户的运维成本;二是核心芯片良率偏低,导致系统整体成本居高不下;三是来自于应用场景,传统上光和铜的边界很清晰,短距离情况下,铜比光更具有优势。不过技术的迭代将逐步提升良率和可靠性,进一步优化维护便利与运维成本。同时,Scaling Law 对需求的极致放大,尤其是带宽的消耗,使得铜与光的界限在发生改变。虽然光完全替代铜还需要时日,但是方向是明确的。
对大型云厂商而言,只要能通过商业手段摊薄成本、算清总账,CPO 就具备规模化基础。总体而言,CPO 技术方向已明确,剩下的只是路径问题。
——芯片产业人士姚金鑫(J 叔)
CPO 的 delay 暴露了英伟达的技术困局,铜互联带宽见顶、光互联推进受阻,双线均遭遇性能瓶颈。此外,英伟达的存量生态,不仅是优势,同时也是包袱,其为守住既有优势,系统堆叠愈发过重,框架性创新让位于渐进式改良,这种“路径依赖式”的防守策略,很难成为在资本市场上的利好。
——芯片产业专家张翔
OpenClaw 定义「智能体计算机」,SaaS 时代终局已至?
GTC 2026 上,英伟达将 OpenClaw 定位为定义“智能体计算机”的下一代操作系统,并将其重要性类比为 Linux 之于服务器、Kubernetes 之于云原生。为此,英伟达联合 OpenClaw 创始人推出企业级增强栈 NemoClaw,为智能体落地提供安全、可规模化的企业级能力。
黄仁勋在演讲中抛出判断:未来绝大多数 SaaS 都将演变为 AaaS(智能体即服务)。“你的 OpenClaw 战略是什么?” 或将成为科技公司的核心命题。
雷峰网采访的业内专家对此分析道:
传统 SaaS 公司都将消失的言论并非危言耸听,AI 智能体对当前 SaaS 业态带来巨大冲击,按席位订阅的商业模式逐步失效,人力替代使得帐号需求锐减,算力成本也日益不可控。过去 SaaS 企业只能向模型公司调取算力与服务,不仅环境搭建繁琐、成本不可控,也难以支撑智能体长期稳定运行,其必须走向 AI 化,打造和运营自主智能体。
Token 分层定价并非对传统 SaaS 订阅模式的替代,而是 AI 时代商业模式的自然演进。客户对这一模式的接受度,也将经历从初期疑虑到逐步认同的过程,因为 Token 的分层定价将实现成本与价值的精准匹配,简单查询可使用低价 Token,深度推理选择高价 Token,天然适配智能体时代的算力消耗逻辑。
——九章云极技术专家陈昊
OpenClaw 本质上是一个以 CPU 为主的控制与编排系统,外接 GPU 推理后端,这意味着它并非单纯的 AI 推理负载,而是典型的 CPU 密集型任务——控制路由、工具执行、状态持久化等都有 CPU 承担。因此,Agent 越流行,AaaS 生态越壮大,CPU 的总需求就越高,且这种需求不仅体现在核数上,更体现在芯片颗数上。
与此同时,系统级能力也会成为 AaaS 时代的核心竞争力。未来决定 Agent 应用落地的,不再仅仅是模型表现,还包括能否将智能体安全、稳定地接入生产环境,以及与之配套的云平台、工具链、连接器和安全体系,这也将推动数据中心的基础设施衡量标准,从单纯比拼“模型能力的强弱”转向“同等投资下可支撑的持续在线 Agent 数量”,即从单一的 GPU 算力转向 GPU+CPU 双芯驱动。
所以,具备 CPU、GPU 全栈组合能力的厂商,将在 AaaS 转型浪潮中占据先发优势。
——芯片产业人士姚金鑫(J 叔)
今日 11 点半丨全网最强「英伟达 GTC」洞察、创投机遇梳理
想吃透 GTC 2026 核心技术精髓?
3 月 19 日 11:30,雷峰网重磅打造 GTC 专题圆桌对话,特邀半导体与 AI 算力领域三位顶级专家,深度拆解大会技术突破,直击国产算力破局关键!
直播时间:2026 年 3 月 19 日 11:30(北京时间)
观看平台: 线上直播间
和顶尖专家一起解锁 GTC 算力变革密码,抢占产业先机!
(赵之齐对本文亦有贡献)
注:张翔、李维、孙旭、张楠、陈昊皆为化名。

