Google最近发布了第8代TPU,在这一代,TPU分为训练芯片TPU 8t和推理芯片TPU 8i。我们首先来看一下TPU 8i(主要是创新比较多)。
作为面向推理负载的专用芯片,TPU 8i 跳出了峰值算力内卷的设计思路,在片上缓存、网络架构及软硬件协同层面实现深度定制。本文基于其微架构展开深入分析,与NVIDIA在同场景下的方案简单对比,探究其在高性能推理领域建立的技术优势与壁垒。
大容量 SRAM
LLM解码阶段逐 Token 自回归生成,单步计算量少、算术强度弱,算力无法充分利用。而且叠加 KV 缓存高频读写、权重频繁调度,可以说在LLM推理解决深受内存墙制约。针对该核心痛点,TPU 8i 采用激进片上存储设计,搭配 384MB 超大片上 SRAM + 288GB HBM3e 高速显存组合,专项优化推理访存效率。
对于一直研究 AI 芯片架构的专业人士而言,TPU 8i 这种堆叠 SRAM 的设计思路,很难不让人联想到英伟达获取的 Groq。Groq 的 LPU(语言处理单元)架构为了追求极致的低延迟和确定性执行,彻底抛弃了 HBM,完全依赖极高带宽的片上 SRAM 来流转模型权重和 KV Cache。然而,Groq 的纯 SRAM 路线虽然在处理百亿参数模型时极快,但在面对万亿参数的混合专家(MoE)大模型时,单芯片极小的容量导致其必须动用成百上千张卡才能装下一个模型,带来了难以承受的互联成本和静态功耗。
谷歌 TPU 8i 384MB 的 SRAM 允许系统将高频的 System Prompt 状态、KV Cache 甚至部分高频调用的轻量级模型网络层直接驻留在芯片内部,大幅减少了向片外 HBM 寻址的频率。与此同时,单卡 288GB 的 HBM3e(带宽 8.6TB/s)则作为庞大的后盾,保证了单节点能够以极低的切分代价吞下超大模型。
我们再来看 NVIDIA 的 Blackwell 架构中的设计。NVIDIA B200 依然维持着相对保守的 L2 Cache 容量(GB202 是128MB),其应对大模型访存主要来自于 192GB HBM3e 所提供的 8TB/s 极致带宽,以及依托超高速 NVLink 实现的全局显存共享机制。客观来看,NVIDIA 的方案在通用性和吞吐量上依然占据王者地位,但在面临长上下文、高并发的智能体推理时,谷歌这种“超大 SRAM + 适度 HBM”的设计,在降低单 Token 生成延迟(Inter-Token Latency)方面,具备更直接的物理优势。
创新性的互联拓扑设计
在采用张量并行(TP)部署大模型时,每一层网络的计算结束后,集群都必须进行一次同步阻塞和全规约(All-Reduce)通信。因此,网络拓扑结构直接决定了多卡协同解码时的响应速度。
在训练专属的 TPU 8t 上,谷歌依然沿用了经典的 3D Torus拓扑,这种结构非常适合上万张卡之间的全局梯度同步,追求的是宏观层面的吞吐极限。但在推理场景中,集群规模通常只需几十到数百张卡,系统最致命的敌人不再是总带宽不足,而是数据包在多层路由跳转中产生的Tail Latency。
在自回归推理过程中,节点间频繁进行 All-Reduce 或 All-to-All 通信。如果存在较深的路由级数,数据包每经过一层交换机都会引入额外的静态转发延迟、排队时延以及潜在的拥塞风险。在张量并行(TP)等强同步模式下,系统的整体效率受限于最慢的通信路径。这种因多级路由跳转累积的不确定性延迟(即Tail Latency),会直接导致计算核心的 Bubble增大,从而显著推高 TTFT和 TPOT。
也就是说,在推理集群中,当规模维持在数十至数百张卡的量级时,互连架构的瓶颈已从聚合带宽限制转向了Tail Latency。

为了应对这一挑战,TPU 8i 首次引入了专为中小型推理 Pod 优化的 Boardfly 拓扑结构。这是一种极度扁平化的物理走线设计,它通过精简交换层级,将单 Pod(最高 1,152 颗芯片)内的最大网络跳数和物理网络直径缩短了 50% 以上。这种空间上的妥协换来了极高的数据确定性,使得多卡协同的响应时间大幅收敛,这对于要求毫秒级响应的连续决策智能体而言至关重要。
专属通信卸载模块
大模型在执行思维链等复杂推理时,伴随着极其频繁的数据同步。在传统的硬件体系中,执行这些集合通信操作往往需要主算力单元亲自参与数据的打包、搬运和规约计算。这种模式会频繁打断矩阵计算的流水线,造成昂贵的计算单元处于空转等待的“气泡”状态。
为了将主算力从繁杂的通信事务中彻底解放出来,TPU 8i 在裸片内部专门集成了一块集合通信加速引擎(Collectives Acceleration Engine,CAE)。这个独立的硬件模块能够在后台异步接管所有的数据归约和同步工作。当主矩阵乘法单元正在全力处理当前 Token 的特征图时,CAE 已经在悄无声息地完成上一层张量并行的数据搬运。这种在芯片底层实现的通信与计算完美重叠(Overlapping),从微观层面彻底消灭了生成每一个 Token 时的微卡顿。
在这一维度上,NVIDIA 同样展现出了深厚的技术底蕴,但其实现路径更为系统化。NVIDIA 依赖交换机网络中的 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol,可扩展层次聚合和规约协议)直接在网络侧完成计算归约,同时配合节点内 Hopper/Blackwell 架构引入的 TMA(张量内存加速器)来异步处理全局与共享内存的数据流转。相较于 NVIDIA “网络侧交换机+算力侧存储引擎”的协同作战模式,谷歌的 CAE 则是将集合通信的卸载能力高度内聚到了单一芯片的微架构中,体现了 ASIC 定制化路线在特定场景下的高耦合度优势。
提升CPU能力
在 Agentic AI 场景下,推理任务的重心正经历从单一的张量计算向复杂的全链路决策控制转移。面对数十万级智能体并发,系统不仅要处理密集计算,更需承担繁重的网络协议栈处理、Token 序列化/反序列化、复杂的逻辑分支判断以及动态批处理(Dynamic Batching)的高频调度。传统的“x86 CPU + PCIe + 加速卡”架构因物理链路过长、PCIe 带宽受限(即便 PCIe 5.0 也是瓶颈)以及主机的内核态切换延迟,已无法支撑 Agent 推理所需的实时响应。
为了彻底消除这一系统性损耗,TPU 8i重构了算力配比的与并进行了更深度的物理耦合:
-
高配比自研 CPU 阵列:
TPU 8i 提升了单位节点内的计算-控制配比。在单个计算托盘内,Google 部署了 2 颗高性能的自研 Axion ARM CPU 来驱动 4 颗 TPU 8i 芯片。这种 2:1 的紧密配比,首先确保了系统在面对极度消耗 CPU 算力的动态连续批处理(Continuous Batching)机制,以及 Agent 复杂的逻辑分支与工具调用时,拥有充裕的标量调度能力,彻底避免了AI加速器因 CPU 调度瓶颈而产生的流水线空转。
此外,高能效比 ARM 芯片代替X86,大幅削减的主机侧耗电,使得相同的机架供电情况下,可以获得更高的算力密度。
-
内存空间的物理级融合与缓存一致性
Axion CPU 采用的不是传统的 PCIe 总线,而是通过自研的高速内联总线与 TPU 实现了物理级的深度耦合。这种设计的终极形态是构建了 CPU 与 TPU 之间的硬件级缓存一致性(Cache Coherency),将主机物理内存与加速器 HBM 映射为一个统一寻址空间,实现了“零拷贝”数据流转。当处理超长文本的复杂场景或 Agent 的多轮状态管理时,即使庞大的 KV Cache 面临显存溢出风险,系统也能依托 PagedAttention 等技术,瞬间将部分“冷状态”顺滑卸载到主机侧大内存中,避免了传统架构下跨总线数据搬运所带来的巨大通信抖动与确定性延迟。
-
专用指令集协同
自研 Axion CPU 不仅仅是通用主控,还针对大模型预处理进行了特别的优化。除了对 API 解析、JSON 处理等典型逻辑进行特定指令优化外,Axion 甚至承担了部分 DPU 的底层职能。通过扩展的底层矢量指令,系统直接实现了对海量并发 RPC 报文解包、Protobuf 反序列化以及文本 Token 化的硬件级加速。配合 KServe 等原生适配的推理框架,它能绕过繁冗的操作系统内核栈,在网络入口处将外部涌入的高并发、小包请求瞬间转化为张量数据直接喂给加速卡,从而展现出远超传统 x86 离散方案的极致吞吐能力。
这种架构上的进化已成为全球顶级算力厂商的绝对共识。
NVIDIA 在 Grace-Blackwell 以及未来的 Rubin 架构中展现了相同的演进路径:通过自研 Grace/Vera CPU 与 GPU 的 NVLink-C2C 互连,彻底取代 PCIe 总线,实现了 CPU 与 GPU 之间 TB/s 级的缓存一致性(Cache Coherency)。
无论是谷歌的“Axion + TPU”还是 NVIDIA 的“Vera + Rubin”,两大巨头都在硬件层面殊途同归:未来的推理算力不再是孤立的加速卡,而是由高性能 CPU 为大脑、高带宽内存为纽带、大规模加速核心为肌肉的高集成度“AI 系统”。
这种软硬高度一体化的异构同源设计,正是开启大规模 Agent 智能体时代的核心钥匙。
总结
从 TPU 8i 的种种针对LLM推理场景的设计中,我们可以清晰地看到 AI 算力硬件发展的一条新主线:通用时代的粗放式算力堆叠已经结束,精准打击具体场景痛点的专用芯片将成为趋势。
凭借大幅增加的片上 SRAM、Boardfly 互连,以及CAE引擎,TPU 8i 在架构设计上为推理场景下极高的硬件利用率(MFU)与极低的响应延迟做好了准备。对于旨在优化TCO并提供高标准推理 SLA 的云计算平台而言,TPU 8i 展现出了成为下一代高性能推理基础设施的巨大潜力。
参考链接:
https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive
https://www.servethehome.com/google-tpu-8i-for-inference-and-tpu-8t-for-training-announced/

