谷歌发布第八代TPU:训练与推理芯片正式分离
北京时间4月24日凌晨,谷歌在拉斯维加斯举行的Google Cloud Next '26大会上正式发布第八代张量处理单元(TPU 8),首次采用“训练+推理”双芯片架构,推出专用于模型训练的TPU 8t和面向AI智能体推理优化的TPU 8i。
为何拆分训练与推理芯片?
长期以来,谷歌TPU采用单芯片兼顾训练与推理。随着AI智能体(AI Agents)兴起,两类任务对硬件的需求差异日益显著:训练追求高吞吐、强扩展性;推理则更关注低延迟、高并发与成本效益。谷歌AI与基础设施首席技术官Amin Vahdat指出:“业界将受益于针对训练和服务各自需求专门优化的芯片。”
TPU 8t:面向大模型训练的效能引擎
TPU 8t聚焦AI模型训练加速,宣称可将前沿模型开发周期从数月缩短至数周。
- 性能提升:相较上一代Ironwood TPU,同等价格下性能提升2.8倍,每瓦性能提升124%;
- 超大规模扩展:单集群最多支持9600块芯片,配备高达2PB共享高带宽内存(HBM);
- 网络升级:采用全新Virgo网络架构,数据中心带宽最高提升4倍,芯片间互联(ICI)带宽提升2倍,支持百万级芯片集群近乎线性扩展;
- 可靠性增强:集成实时遥测监控、故障链路自动绕行、光路电路交换(OCS)自主维护等RAS能力。
TPU 8i:突破“内存墙”的推理专用芯片
TPU 8i专为AI智能体时代的实时、高并发推理场景设计,核心目标是降低延迟、提升能效比。
- 片上存储大幅扩容:集成384MB SRAM,达上一代三倍,使KV Cache等活跃工作集完全驻留芯片内部,显著减少外部内存访问延迟;
- 网络架构革新:弃用传统3D环面结构,采用分层式Boardfly拓扑,最大通信跳数由16降至7,网络直径缩减56%,全对全通信延迟最高改善50%,大幅提升MoE模型及长上下文推理效率;
- 性价比跃升:推理任务性价比较上一代提升80%。
软硬协同:构建AI智能体全栈基础设施
伴随TPU 8系列发布,谷歌同步推出Gemini Enterprise Agent Platform,集成Memory Bank、Agent Simulation等能力,支持企业快速构建具备记忆、推理与行动能力的自主AI代理。
谷歌云CEO Thomas Kurian强调,此举标志着谷歌正打造从底层专用芯片、中层智能体平台到上层生产力应用(如Workspace AI)的全栈式AI基础设施,推动企业智能化转型。
行业影响:直面英伟达,强化AI芯片竞争格局
谷歌此次“训推分离”战略,精准回应当前AI基础设施面临的高成本、高延迟痛点。TPU 8系列计划于2026年晚些时候正式供货。
值得注意的是,英伟达亦在推进类似路径,拟整合Groq技术推出超低延迟推理芯片,与TPU 8i形成直接技术对标。

