大数跨境

GTC 巅峰对话 Jeff Dean x Bill Dally:预训练范式已死、延迟瓶颈不在计算、谈透 AI 五年未来 | GTC 2026

GTC 巅峰对话 Jeff Dean x Bill Dally:预训练范式已死、延迟瓶颈不在计算、谈透 AI 五年未来 | GTC 2026 AI科技大本营
2026-03-19
1
导读:AI 下一前沿,正在从训练走向推理,从模型走向系统

Agent 一旦跑起来,很多为人类设计的工具都会变成新的瓶颈。

责编 | 王启隆

出品丨AI 科技大本营(ID:rgznai100)

今天上午,GTC 2026 举行了一场重磅对话:NVIDIA 首席科学家 Bill Dally 与 Google DeepMind、Google Research 首席科学家 Jeff Dean 展开深度对谈。这是 GTC 年度传统——邀请全球顶尖 AI 学者与英伟达首席科学家同台交流。前两年分别是李飞飞与杨立昆,信息密度极高。

Bill Dally 代表 NVIDIA 对 GPU、推理系统、网络与芯片架构的理解;Jeff Dean 则代表 Google 在 TPUs、大模型训练、Gemini 及大规模机器学习系统方面的实践与判断。

不同于常规“一问一答”,本次对话采用双向设问形式——两位科学家各自准备问题向对方发问,堪称顶级技术思想的“招式拆解”。核心议题包括:过去一年的关键变化、推理为何超越训练成为重心、低延迟瓶颈究竟卡在哪、预训练是否会重构、AI 能否自我迭代、以及 AI 反哺芯片设计等。

Bill Dally:过去一年,机器学习里最让你兴奋的变化是什么?明年又会发生什么?

Jeff Dean:模型能力在过去一年实现显著跃升,更重要的是,人们开始真正将这些能力投入实际应用。

有两点尤为突出:

  • 可验证奖励任务的能力大幅提升:在数学与编程领域表现尤为明显。Gemini 在国际数学奥林匹克(IMO)与 ICPC 编程竞赛中均斩获金牌,标志着复杂逻辑推理能力已迈入新阶段。
  • Agent-based workflows 开始支撑长周期任务:过去需人工频繁干预的任务(如每几分钟确认下一步),如今可交由 Agent 自主执行数小时甚至数天——自动纠错、持续规划、多步协作。这意味着模型正从“交互辅助”走向“相对自主运行”。

这一转变也带来关键挑战:如何实现 ultra-low-latency inference(超低延迟推理)?因为 Agent 的响应效率直接决定其解决问题的实际效能。

Jeff Dean:下一代架构如何实现“显著的延迟降低”?如何从几百 token/s 提升至几千甚至几万 token/s?

Bill Dally:推理性能本质是延迟与吞吐量的权衡曲线。当极致优化延迟时,通信成为最大瓶颈——LLM 每层计算后常需片上/片外数据传输,跨芯片通信更易成关键延迟源。

NVIDIA 正从两方面突破:

  • 片上通信:采用区块化(tile)设计与静态调度,消除路由、排队与仲裁开销,信号传播延迟压缩至约 30 纳秒(当前常见为数百纳秒);
  • 片外通信:重构物理接口(PHY)设计,适当降低单链路带宽(如从 400Gbps 降至 200Gbps),大幅削减数字信号处理与前向纠错负担,使芯片间通信仅需数个时钟周期。

参考 20 年前克雷公司“黑寡妇”项目经验(引脚间延迟<50 纳秒),NVIDIA 有望重新达成同类低延迟路由器设计。届时,即使是大规模模型,也可实现单用户每秒 1 万–2 万个 token 的推理吞吐。

Jeff Dean:关键在于,这种低延迟必须覆盖最大规模模型,而不仅是小模型。

Bill Dally:完全认同。这正是技术突破的核心价值所在。

Bill Dally:我们距离“让 Gemini 去设计下一代 Gemini”还有多远?

Jeff Dean:完整闭环尚未实现,但雏形已现。当前 Agent 已能接受自然语言指令(如“探索蒸馏算法”“利用未使用信息”),自动开展数十项实验、筛选方向、深入验证——这本质上是由自然语言驱动的元学习(Meta-learning)搜索

相较早期需手动编码定义搜索空间(如 2017 年 NAS 架构搜索),如今研究者只需发出高层指令,Agent 即可执行探索流程,极大提升科研生产力。

Bill Dally:这相当于“超级研究员 + 超级 Agent”的组合,将人类创意与机器执行力深度融合。

Jeff Dean:硬件项目立项两年后芯片才进机房。你们如何预测两到五年后的 AI 演进?

硬件研发周期长、迭代慢,而 AI 模型演进极快。如何预判未来需求,是根本性挑战。

Bill Dally:核心策略是future-proof hardware(硬件未来适应性)

  • 优先推进通用性优化:如更高效的数值表示、更优的片上通信结构,使其对各类模型均有益;
  • 警惕资源配比突变:模型创新(如注意力机制变革)可能打破“计算/内存带宽/容量/通信”的平衡,导致部分硬件单元闲置、另一些过载;
  • 应对分化趋势:若模型形态高度分化且各具规模,最终答案或是推出不同 SKU,以精简配置对冲不确定性。

Bill Dally:如果高质量训练数据快挖完了,我们还怎么继续 scale 模型?

Jeff Dean:首先,“数据枯竭”并非事实——大量视频(尤其含音频)、机器人交互、自动驾驶等真实世界数据尚未充分用于训练。此外,合成数据仍是重要路径:强模型生成的数据虽源于已有知识,但本质是清洗与提纯,仍具增益;它与数据增强、正则化等技术一脉相承,可持续投入算力提升训练质量,而不必然导致过拟合。

Bill Dally:合成数据确实不是“自我咀嚼”,而是知识的再结构化与强化。

Bill Dally:LLM 会不会像 AlphaGo 一样,在环境中行动、自主进化?

Jeff Dean:当前预训练本质是“被动观察”:随机初始化模型后,海量数据流式灌入。但理想路径应是主动感知与行动交织——在模拟环境或问题求解中实时决策、获取反馈、动态调整学习目标,而非依赖固定数据序列。

这种模式有望大幅提升 token 利用效率。长远看,预训练与后训练的人为边界或将消失,转向更统一的“具身学习(embodied learning)”框架。

Bill Dally:前提是模型需先达到一定智能基线——可能只需初步训练(如 100 亿 token)即可启动此循环。

Jeff Dean:训练负载重要,但推理负载现在越来越关键。你怎么看训练与推理硬件的差异?

Bill Dally:Inference is the job now. 当前数据中心中,90% 的功耗已用于推理。

两者共性有限,差异显著:

  • 训练硬件:重内存容量,需全程保存激活值以支持反向传播;
  • 推理硬件:考验计算、内存带宽、容量与通信的精细配比。

进一步细分,推理内部亦有差异:

  • 预填充(Prefill)阶段:类似训练,属密集计算,受通信能耗主导;
  • 解码(Decode)阶段:极度串行,单 token 逐层流转,属带宽与延迟双受限场景,适合极瘦矩阵运算。

未来硬件或将分化为三类:训练与 Prefill 专用、Decode 主流专用、以及 Decode 细分场景专用。

Jeff Dean:投机性解码(Speculative Decoding)已能将单 token 解码扩展为 8-token 批处理;扩散模型则有望一次处理数百 token 的块级计算。

Jeff Dean:新模型层出不穷,从 MoE 到新 Attention,你最兴奋的是什么?

Bill Dally:两大方向最具潜力:

  • 稀疏激活的超大参数模型(MoE):总参数量庞大,但每次仅激活少量专家(expert),带来硬件调度挑战(batch 内样本激活不同 expert,削弱 batching 效率);
  • 高效 Attention 改进:如 chunk-wise attention + 重点深入、聚类 query-state 等方法,有望将复杂度从 O(N²) 降至 O(N log N),支撑百万级上下文。

Jeff Dean:更关注分层检索架构——不盲目扩大 attention window,而是通过轻量级检索器多级筛选(万亿 token → 万篇文档 → 百万 token 上下文),实现“全局感知”与“局部精读”的平衡。这比单纯堆叠上下文更具扩展性与实用性。

Jeff Dean:AI for Chip Design(AI 辅助芯片设计)前景如何?

Bill Dally:AI 已深度渗透芯片全流程:

  • NVCell:基于强化学习的 standard cell 迁移系统,将 8 人团队 10 个月工作压缩至单 GPU 一夜完成,结果媲美甚至优于人工;
  • PrefixRL:解决 carry look-ahead 加法器设计难题,输出人类难以想到的非标结构,在面积与功耗上提升 20%–30%;
  • ChipNeMo / BugNeMo:专用于 GPU 设计的 LLM,可即时解答 junior engineer 关于 texture unit、RTL 接口等基础问题,并辅助 bug 归因与分配;
  • Agentic 架构探索:用 agent 自动进行参数空间搜索、thought experiment、原型验证,加速从 F-model 到 tape-out 全流程,尤其聚焦最耗时的设计验证环节。

端到端全自动设计尚远,但“master agent 调用专业子 agent 协作”的分治范式已初见雏形。

Jeff Dean:若出现 agent swarm,最大的系统挑战是什么?

Bill Dally:核心瓶颈并非模型本身,而是与人类工具链的适配失配

当前 Agent 大量依赖为人类操作节奏设计的工具(如 C 编译器、电子表格、文档系统),其启动延迟与运行速度成为 Amdahl 式硬瓶颈——即便模型推理无限快,端到端延迟仍被工具拖累。未来需对各类知识工作工具进行工程重构,使其原生适配 Agent 的高速交互节奏。

Bill Dally:你讲能耗时最打动我的一句话是,“真正贵的是把数据搬过来”。未来最大能效突破会来自哪里?

Jeff Dean:数据搬运能耗远高于计算本身。例如:NVFP4 的 multiply-add 仅耗约 10 femtojoules;但从 HBM4 读取同等数据需约 15 picojoules——高约 1000 倍。

因此能效核心原则是:Don’t move the data.

关键路径包括:

  • 近存计算(In-Memory Computing):将矩阵行与激活向量均驻留 SRAM,就地完成点积,避免数据移动;
  • 存算一体封装(DRAM-on-GPU):将 DRAM 直接堆叠于计算芯片上方,带宽与能效提升一个数量级;
  • 结构化稀疏:从 Ampere 的 2:1 structured sparsity,迈向更细粒度、更高自由度的稀疏优化,但仍需兼顾硬件执行效率。

Jeff Dean:TPU 采用的 2D/3D Torus 拓扑,与全交换网络相比该如何权衡?

Bill Dally:无绝对优劣,取决于业务负载与流量模式

  • Torus 适合局部性强负载(如邻近数据反复访问),跳数少、延迟低;
  • MoE 等全局随机访问场景则更适合高基数交换网络(如 Dragonfly),避免多跳累积延迟;
  • 前沿方案正转向混合架构:局部通信采用增强型直连拓扑(如 Flattened Butterfly),全局通信走专用交换层。

Bill Dally:这些系统越来越强之后,它们最积极的社会影响会是什么?

Jeff Dean:教育与医疗最具社会价值:

  • 个性化辅导教师:每位学生均可拥有知晓其认知特点、教材体系与学习风格的 AI 导师,教学效果提升可达 1–2 个标准差;
  • 个性化健康教练:结合可穿戴设备与基因测序数据,提供实时饮食建议、用药预警、慢病干预,真正实现预防性医疗。

Bill Dally:除教育与健康外,AI for hardware design 是其最兴奋的方向——将重复性工程压缩至分钟级,释放工程师创造力。他坦言:“我骨子里仍是硬件设计师,希望 15 分钟做完工作,剩下时间干更有意思的事。”

Jeff Dean:NVIDIA 过去十年增长巨大。你最怀念以前公司小的时候什么?

Bill Dally:怀念千人规模时的社区感与光速决策力——无需冗长审批,人人知悉关键接口,责任感源自归属感而非流程约束。

如今虽有官僚痕迹,但黄仁勋成功维系了初创公司的文化内核。规模既是挑战,更是机遇:唯有善用资源,方能推动最大化的技术向善。

【声明】内容源于网络
0
0
AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
内容 6859
粉丝 0
AI科技大本营 为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
总阅读71.1k
粉丝0
内容6.9k