大数跨境
0
0

谷歌TPU挑战英伟达王座!TPU/GPU性能全面对比

谷歌TPU挑战英伟达王座!TPU/GPU性能全面对比 环球科技研究
2025-11-30
24


序言

      长期以来,英伟达凭借 CUDA 生态系统和顶尖的 GPU 硬件,在 AI 算力市场占据着不可动摇的霸主地位。然而,当目前世界上最优秀的两个模型——Anthropic 的 Claude Opus 4.5 和谷歌的 Gemini 3,大部分训练与推理基础设施都运行在谷歌的 TPU 上,特别是 Anthropic 购买了超 1GW 的 TPU 算力,标志着 TPU 不再是谷歌的内部资源,而是正在成为可与英伟达GPU直接竞争的外部利器。


      2006 年Google 就准备构建专用 AI 基础设施,最初是为了加速谷歌搜索、广告和机器学习模型而设计,为此,他们开始开发TPU芯片并于 2016 年投入生产。最近Gemini 3的发布证明了世界上最优秀的模型可以完全通过谷歌自己的TPU训练而不一定需要英伟达的GPU,引起了竞争对手的注意。Sam Altman 承认 OpenAI 面临“糟糕的预感”,因为 Gemini 抢了 OpenAI 的风头。Nvidia 甚至发布了一则安抚性的公关文章号称自己性能仍然遥遥领先。



      过去几个月谷歌TPU生态可以说热火朝天。TPU 产量的大幅上修(预计明年出货400万颗)、Anthropic 超过 1GW的TPU 建设(购买40万颗及租用60万颗TPU)、在 TPU 上训练的 SOTA 模型 Gemini 3 和 Claude Opus 4.5,以及现在不断扩大的目标客户名单(Meta、SSI、xAI、OAI)纷纷排队使用 TPU,这些都推动了对 Google及其 TPU 供应链的巨大重新估值,而以 Nvidia GPU 为中心的供应链则相应受到冲击。



      下面分几个方面对比谷歌TPU和英伟达GPU:


      1. TPUv7 FLOPS算力性能追平英伟达GB200

      2. TPUv7 TCO(总拥有成本)比GB200低44%

      3. 谷歌ICI互联9216颗TPU集群,扩展性碾压英伟达

      4. 下一代TPUv8和Rubin对比



      TPUv7对比GB200算力持平

          TPU v7 Ironwood在FLOPs、内存和带宽方面几乎完全追平了对应的 Nvidia 旗舰 GPU,算力达到了4614 TFLOPS。与 GB200 相比,FLOPs 和内存带宽仅有轻微不足,容量相同为 192GB 8-Hi HBM3E,当然这相比拥有 288GB 12-Hi HBM3E 的GB300 仍然是一个显著差距。



          TCO成本低44%

              根据Semianalysis的测算,谷歌内部使用的每个 Ironwood 芯片的TCO约为$1.28/h,比 GB200 服务器的$2.28/h低 ~44%。在Google 对外出租 TPU v7 获利的情况下,TCO为$1.6/h,仍可比 GB200低至约 ~30%,并比 GB300 低至约 ~41%



              ICI互联9216颗TPU集群

                TPU 最显著的特征之一是通过ICI互联协议实现的极大规模扩展集群规模。一个 TPU pod 的集群规模可达 9216 个 Ironwood TPU,每部机架含64颗TPU通过3D Torus的形式拓展至144个机架。


                从机架内部看,每个Ironwood tray包含4颗TPU,并且每颗TPU都同时通过800G光模块/DAC铜缆/PCB线路连接到相邻的6颗TPU。每个tray对应18个OSFP中6个800G光模块,12个800G DAC。TPU/光模块比例1:1.5



                如下图所示,64颗TPU组成的4x4x4立方体内部TPU通过800G铜互联,而立方体表面的TPU对相邻机架的连接则使用800G光模块连接到OCS交换机。



                每个TPU集群共包含48台OCS交换机,OCS的优点和细节已经在上次的文章中详细介绍了,简单来说就是相比电交换机跳过了一次光-电-光的转换节省了功耗,并且延迟更低。


                谷歌TPU的3D拓扑结构的最大优势就是在于打破了scale-up和scale-out的界限,每颗TPU互联都向外引出了6条800G链路,所以互联带宽理论上可以达到惊人的4.8T/s。对于机架间互联,位于角落的TPU也可以达到2.4T/s对比英伟达的GB200集群的机架间互联通过传统的以太网交换机只有800G/s。这使得谷歌TPU在集群扩展方面对比英伟达具有巨大优势。



                TPUv8对比Rubin

                  TPUv8 将于2026年下半年面市,并将与英伟达的 Vera Rubin 竞争。TPU v8将有 2 个版本,一个与 Broadcom 联合设计(代号 “Sunfish” 的 TPU 8AX),另一个与 MediaTek 联合设计(代号 “Zebrafish” 的TPU 8X)。


                  TPU 8AX 与 Ironwood 非常相似,仍然使用N3E节点布局类似,包含 2 颗计算芯片、1 颗I/O chiplet,以及8组 12-Hi HBM3E速率为 9.6Gbps,使其相比 TPU v7 在内存带宽上提升约 ~30%。但Rubin 率先采用新一代 HBM4单芯片内存带宽达到20 TB/s,领先仍然采用HBM3E带宽为9.8TB/s的TPU v8。结果是,与英伟达计划通过 Rubin 在计算和内存方面实现的提升相比,TPUv8 性能提升要温和得多。对外部客户而言,每有效 FLOP 的TCO仍然具有优势,但相比于Blackwell 与 Ironwood 的差距更小。



                  在下一代竞争中,Rubin 计划通过牺牲功耗和成本来追求极致的绝对性能(尤其是带宽)。而谷歌的 TPU v8 则面临着抉择:是继续坚持其 RAS 哲学和系统级效率,还是必须采取更激进的硬件设计以应对 Rubin 在核心参数上的压倒性优势。这份竞争关系将决定 AI 算力市场在 2027 年之后的格局。


                  点分享
                  点收藏
                  点在看
                  点点赞

                  【声明】内容源于网络
                  0
                  0
                  环球科技研究
                  每日分享花街TMT新鲜热辣信息及研报解读
                  内容 51
                  粉丝 0
                  环球科技研究 每日分享花街TMT新鲜热辣信息及研报解读
                  总阅读380
                  粉丝0
                  内容51