GTC 巅峰对话 Jeff Dean x Bill Dally：预训练范式已死、延迟瓶颈不在计算、谈透 AI 五年未来

首页

GTC 巅峰对话 Jeff Dean x Bill Dally：预训练范式已死、延迟瓶颈不在计算、谈透 AI 五年未来 | GTC 2026

AI科技大本营

2026-03-19

导读：AI 下一前沿，正在从训练走向推理，从模型走向系统

Agent 一旦跑起来，很多为人类设计的工具都会变成新的瓶颈。

责编 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

今天上午，GTC 2026 举行了一场重磅对话：NVIDIA 首席科学家 Bill Dally 与 Google DeepMind、Google Research 首席科学家 Jeff Dean 展开深度对谈。这是 GTC 年度传统——邀请全球顶尖 AI 学者与英伟达首席科学家同台交流。前两年分别是李飞飞与杨立昆，信息密度极高。

Bill Dally 代表 NVIDIA 对 GPU、推理系统、网络与芯片架构的理解；Jeff Dean 则代表 Google 在 TPUs、大模型训练、Gemini 及大规模机器学习系统方面的实践与判断。

不同于常规“一问一答”，本次对话采用双向设问形式——两位科学家各自准备问题向对方发问，堪称顶级技术思想的“招式拆解”。核心议题包括：过去一年的关键变化、推理为何超越训练成为重心、低延迟瓶颈究竟卡在哪、预训练是否会重构、AI 能否自我迭代、以及 AI 反哺芯片设计等。

Bill Dally：过去一年，机器学习里最让你兴奋的变化是什么？明年又会发生什么？

Jeff Dean：模型能力在过去一年实现显著跃升，更重要的是，人们开始真正将这些能力投入实际应用。

有两点尤为突出：

可验证奖励任务的能力大幅提升：在数学与编程领域表现尤为明显。Gemini 在国际数学奥林匹克（IMO）与 ICPC 编程竞赛中均斩获金牌，标志着复杂逻辑推理能力已迈入新阶段。
Agent-based workflows 开始支撑长周期任务：过去需人工频繁干预的任务（如每几分钟确认下一步），如今可交由 Agent 自主执行数小时甚至数天——自动纠错、持续规划、多步协作。这意味着模型正从“交互辅助”走向“相对自主运行”。

这一转变也带来关键挑战：如何实现 ultra-low-latency inference（超低延迟推理）？因为 Agent 的响应效率直接决定其解决问题的实际效能。

Jeff Dean：下一代架构如何实现“显著的延迟降低”？如何从几百 token/s 提升至几千甚至几万 token/s？

Bill Dally：推理性能本质是延迟与吞吐量的权衡曲线。当极致优化延迟时，通信成为最大瓶颈——LLM 每层计算后常需片上/片外数据传输，跨芯片通信更易成关键延迟源。

NVIDIA 正从两方面突破：

片上通信：采用区块化（tile）设计与静态调度，消除路由、排队与仲裁开销，信号传播延迟压缩至约 30 纳秒（当前常见为数百纳秒）；
片外通信：重构物理接口（PHY）设计，适当降低单链路带宽（如从 400Gbps 降至 200Gbps），大幅削减数字信号处理与前向纠错负担，使芯片间通信仅需数个时钟周期。

参考 20 年前克雷公司“黑寡妇”项目经验（引脚间延迟＜50 纳秒），NVIDIA 有望重新达成同类低延迟路由器设计。届时，即使是大规模模型，也可实现单用户每秒 1 万–2 万个 token 的推理吞吐。

Jeff Dean：关键在于，这种低延迟必须覆盖最大规模模型，而不仅是小模型。

Bill Dally：完全认同。这正是技术突破的核心价值所在。

Bill Dally：我们距离“让 Gemini 去设计下一代 Gemini”还有多远？

Jeff Dean：完整闭环尚未实现，但雏形已现。当前 Agent 已能接受自然语言指令（如“探索蒸馏算法”“利用未使用信息”），自动开展数十项实验、筛选方向、深入验证——这本质上是由自然语言驱动的元学习（Meta-learning）搜索。

相较早期需手动编码定义搜索空间（如 2017 年 NAS 架构搜索），如今研究者只需发出高层指令，Agent 即可执行探索流程，极大提升科研生产力。

Bill Dally：这相当于“超级研究员 + 超级 Agent”的组合，将人类创意与机器执行力深度融合。

Jeff Dean：硬件项目立项两年后芯片才进机房。你们如何预测两到五年后的 AI 演进？

硬件研发周期长、迭代慢，而 AI 模型演进极快。如何预判未来需求，是根本性挑战。

Bill Dally：核心策略是future-proof hardware（硬件未来适应性）：

优先推进通用性优化：如更高效的数值表示、更优的片上通信结构，使其对各类模型均有益；
警惕资源配比突变：模型创新（如注意力机制变革）可能打破“计算/内存带宽/容量/通信”的平衡，导致部分硬件单元闲置、另一些过载；
应对分化趋势：若模型形态高度分化且各具规模，最终答案或是推出不同 SKU，以精简配置对冲不确定性。

Bill Dally：如果高质量训练数据快挖完了，我们还怎么继续 scale 模型？

Jeff Dean：首先，“数据枯竭”并非事实——大量视频（尤其含音频）、机器人交互、自动驾驶等真实世界数据尚未充分用于训练。此外，合成数据仍是重要路径：强模型生成的数据虽源于已有知识，但本质是清洗与提纯，仍具增益；它与数据增强、正则化等技术一脉相承，可持续投入算力提升训练质量，而不必然导致过拟合。

Bill Dally：合成数据确实不是“自我咀嚼”，而是知识的再结构化与强化。

Bill Dally：LLM 会不会像 AlphaGo 一样，在环境中行动、自主进化？

Jeff Dean：当前预训练本质是“被动观察”：随机初始化模型后，海量数据流式灌入。但理想路径应是主动感知与行动交织——在模拟环境或问题求解中实时决策、获取反馈、动态调整学习目标，而非依赖固定数据序列。

这种模式有望大幅提升 token 利用效率。长远看，预训练与后训练的人为边界或将消失，转向更统一的“具身学习（embodied learning）”框架。

Bill Dally：前提是模型需先达到一定智能基线——可能只需初步训练（如 100 亿 token）即可启动此循环。

Jeff Dean：训练负载重要，但推理负载现在越来越关键。你怎么看训练与推理硬件的差异？

Bill Dally：Inference is the job now. 当前数据中心中，90% 的功耗已用于推理。

两者共性有限，差异显著：

训练硬件：重内存容量，需全程保存激活值以支持反向传播；
推理硬件：考验计算、内存带宽、容量与通信的精细配比。

进一步细分，推理内部亦有差异：

预填充（Prefill）阶段：类似训练，属密集计算，受通信能耗主导；
解码（Decode）阶段：极度串行，单 token 逐层流转，属带宽与延迟双受限场景，适合极瘦矩阵运算。

未来硬件或将分化为三类：训练与 Prefill 专用、Decode 主流专用、以及 Decode 细分场景专用。

Jeff Dean：投机性解码（Speculative Decoding）已能将单 token 解码扩展为 8-token 批处理；扩散模型则有望一次处理数百 token 的块级计算。

Jeff Dean：新模型层出不穷，从 MoE 到新 Attention，你最兴奋的是什么？

Bill Dally：两大方向最具潜力：

稀疏激活的超大参数模型（MoE）：总参数量庞大，但每次仅激活少量专家（expert），带来硬件调度挑战（batch 内样本激活不同 expert，削弱 batching 效率）；
高效 Attention 改进：如 chunk-wise attention + 重点深入、聚类 query-state 等方法，有望将复杂度从 O(N²) 降至 O(N log N)，支撑百万级上下文。

Jeff Dean：更关注分层检索架构——不盲目扩大 attention window，而是通过轻量级检索器多级筛选（万亿 token → 万篇文档 → 百万 token 上下文），实现“全局感知”与“局部精读”的平衡。这比单纯堆叠上下文更具扩展性与实用性。

Jeff Dean：AI for Chip Design（AI 辅助芯片设计）前景如何？

Bill Dally：AI 已深度渗透芯片全流程：

NVCell：基于强化学习的 standard cell 迁移系统，将 8 人团队 10 个月工作压缩至单 GPU 一夜完成，结果媲美甚至优于人工；
PrefixRL：解决 carry look-ahead 加法器设计难题，输出人类难以想到的非标结构，在面积与功耗上提升 20%–30%；
ChipNeMo / BugNeMo：专用于 GPU 设计的 LLM，可即时解答 junior engineer 关于 texture unit、RTL 接口等基础问题，并辅助 bug 归因与分配；
Agentic 架构探索：用 agent 自动进行参数空间搜索、thought experiment、原型验证，加速从 F-model 到 tape-out 全流程，尤其聚焦最耗时的设计验证环节。

端到端全自动设计尚远，但“master agent 调用专业子 agent 协作”的分治范式已初见雏形。

Jeff Dean：若出现 agent swarm，最大的系统挑战是什么？

Bill Dally：核心瓶颈并非模型本身，而是与人类工具链的适配失配。

当前 Agent 大量依赖为人类操作节奏设计的工具（如 C 编译器、电子表格、文档系统），其启动延迟与运行速度成为 Amdahl 式硬瓶颈——即便模型推理无限快，端到端延迟仍被工具拖累。未来需对各类知识工作工具进行工程重构，使其原生适配 Agent 的高速交互节奏。

Bill Dally：你讲能耗时最打动我的一句话是，“真正贵的是把数据搬过来”。未来最大能效突破会来自哪里？

Jeff Dean：数据搬运能耗远高于计算本身。例如：NVFP4 的 multiply-add 仅耗约 10 femtojoules；但从 HBM4 读取同等数据需约 15 picojoules——高约 1000 倍。

因此能效核心原则是：Don’t move the data.

关键路径包括：

近存计算（In-Memory Computing）：将矩阵行与激活向量均驻留 SRAM，就地完成点积，避免数据移动；
存算一体封装（DRAM-on-GPU）：将 DRAM 直接堆叠于计算芯片上方，带宽与能效提升一个数量级；
结构化稀疏：从 Ampere 的 2:1 structured sparsity，迈向更细粒度、更高自由度的稀疏优化，但仍需兼顾硬件执行效率。

Jeff Dean：TPU 采用的 2D/3D Torus 拓扑，与全交换网络相比该如何权衡？

Bill Dally：无绝对优劣，取决于业务负载与流量模式：

Torus 适合局部性强负载（如邻近数据反复访问），跳数少、延迟低；
MoE 等全局随机访问场景则更适合高基数交换网络（如 Dragonfly），避免多跳累积延迟；
前沿方案正转向混合架构：局部通信采用增强型直连拓扑（如 Flattened Butterfly），全局通信走专用交换层。

Bill Dally：这些系统越来越强之后，它们最积极的社会影响会是什么？

Jeff Dean：教育与医疗最具社会价值：

个性化辅导教师：每位学生均可拥有知晓其认知特点、教材体系与学习风格的 AI 导师，教学效果提升可达 1–2 个标准差；
个性化健康教练：结合可穿戴设备与基因测序数据，提供实时饮食建议、用药预警、慢病干预，真正实现预防性医疗。

Bill Dally：除教育与健康外，AI for hardware design 是其最兴奋的方向——将重复性工程压缩至分钟级，释放工程师创造力。他坦言：“我骨子里仍是硬件设计师，希望 15 分钟做完工作，剩下时间干更有意思的事。”

Jeff Dean：NVIDIA 过去十年增长巨大。你最怀念以前公司小的时候什么？

Bill Dally：怀念千人规模时的社区感与光速决策力——无需冗长审批，人人知悉关键接口，责任感源自归属感而非流程约束。

如今虽有官僚痕迹，但黄仁勋成功维系了初创公司的文化内核。规模既是挑战，更是机遇：唯有善用资源，方能推动最大化的技术向善。

【声明】内容源于网络

AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员，提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

内容 6859

粉丝 0

AI科技大本营为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员，提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

总阅读71.1k

粉丝0

内容6.9k