·聚焦:人工智能、芯片等行业
欢迎各位客官关注、转发
绝境求生,TPU的诞生与逆袭之路
2013年,谷歌内部的一份预测让管理层坐立难安,如果全球安卓用户的语音搜索全面采用神经网络处理,所需算力将是当时谷歌所有数据中心总算力的两倍,而单纯扩大数据中心规模的成本高到不可承受。
当时的谷歌面临三个选择,继续依赖CPU、采购英伟达GPU,或是自研专用芯片。
CPU的算力效率过低,直接被排除;英伟达GPU虽成熟可用,但并非专为深度学习优化导致效率损失,且单一供应商依赖会带来战略风险。
在所有外部方案被否决后,自研ASIC芯片成为谷歌的唯一出路。
这个被视为孤注一掷的决定,最终催生了改变行业的TPU。
2015年,第一代TPU悄然诞生,28nm制程工艺带来15-30倍的性能提升和30-80倍的能效提升。
专为推理场景设计的脉动阵列架构,让数据在处理单元中高效流转,最大限度减少内存访问损耗。
但TPU的起步并不顺利,2016年谷歌公布TPU性能指标后,英伟达公开发难,称其在GoogLeNet推理测试中,Pascal P40的处理速度是TPU的两倍,且单位成本更低。
业界普遍质疑,在GPU年年迭代的节奏下,定制芯片的研发成本和灵活性缺陷,注定难以长久。
然而谷歌的目光远比市场想象的更为长远,TPU的核心优势从不在于单卡峰值性能,而在于谷歌特定工作负载下的总拥有成本(TCO)和战略自主权。
2016年AlphaGo对战李世石的世纪之战,成为TPU的成名之战。
此后十年,TPU完成了从推理到训练、从单一场景到通用负载、从内部使用到商业化输出的三级跳。
①2017年TPU v2:定义bfloat16数值格式,首次支持模型训练,256颗芯片组成的Pod集群峰值算力达11.5 PetaFLOPS。
②2018年TPU v3:全面转向液冷技术,解决450W单芯片功耗的散热难题,奠定超大规模集群的物理基础,推动液冷成为AI数据中心主流。
③2022年TPU v4:引入OCS光电路交换技术,实现动态可编程互连,4096颗芯片组成的集群支持万亿参数模型训练,PaLM 540B模型在此诞生。
④2023年TPU v5p:打通训练与推理双场景,集群规模扩展至8960颗芯片,首次进入谷歌广告、搜索等核心盈利业务,Meta、Anthropic开始批量采购。
⑤2024年TPU v6:聚焦推理场景,能效比提升67%,成为谷歌搜索、YouTube推荐和Gemini模型的推理主力,宣告TPU进入推理优先时代。
⑥2025年TPU v7 Ironwood:单芯片FP8算力达4614 TFLOPS,略超英伟达B200,9216颗芯片集群算力达42.5 ExaFLOPS,正式向英伟达发起正面挑战。
不止是性能反超,Inrowood在系统级下功夫
第七代TPU Ironwood的横空出世,之所以能引发行业地震,核心在于它不再是谷歌内部的黑科技,而是一套面向开放市场的、具备系统级优势的完整解决方案。
Ironwood的单芯片硬实力足以跻身全球顶级梯队,FP8精度下峰值算力达4614 TFLOPS,略高于英伟达B200的4500 TFLOPS。
配备192GB HBM3e内存,带宽高达7.2TB/s,与B200的8TB/s仅一步之遥。
单芯片能效比达29.3 TFLOPS/W,是第六代TPU的2倍,远超英伟达B200的能效水平。
内存容量是前代的6倍,带宽提升4.5倍,可轻松承载数百亿到上千亿参数模型的推理任务。
而FP8计算格式的支持,在保证模型精度损失低于2%的前提下,将数据传输量减少50%,大幅降低延迟和功耗。
谷歌真正的杀手锏是集群扩展能力,Ironwood支持最多9216颗液冷芯片组成集群,总算力高达42.5 ExaFLOPS。
相当于全球最强超算El Capitan的24倍,在特定FP8负载下性能是最接近竞品的118倍。
支撑这一规模的核心,是谷歌自研的2D/3D环面拓扑与OCS光电路交换技术。
与英伟达依赖NVLink+高阶交换机构建的72颗GPU集群不同,谷歌放弃了传统交换机中心化设计,通过三维环面拓扑直接连接所有芯片,再借助OCS技术实现动态光路重构。
OCS利用MEMS微镜在毫秒级完成光信号切换,几乎无延迟,且能瞬间绕开故障芯片,这种系统级设计带来的直接好处,是推理成本的显著降低。
Ironwood集群提供1.77PB高带宽HBM,所有芯片可近乎等距访问,大幅提升KV缓存命中率,减少重复计算。
谷歌内部实测显示,同等负载下Ironwood的推理成本较GPU旗舰系统低30%-40%,极端场景下优势更明显。
对于每天要处理数十亿次模型调用的AI公司而言,这种成本优势足以改变竞争格局。
为了降低客户迁移门槛,谷歌开发了[谷歌版CUDA],TPU command center,并支持通过PyTorch生态工具与TPU交互,无需精通谷歌自研的Jax语言。
Ironwood还配套了完整的软件栈,更重要的是,谷歌推出了Agent2Agent生态协议,同时向vLLM、SGLang等开源推理框架大量贡献代码,打通了TPU在开源生态中的关键环节。
软件生态的完善,让Ironwood不再是谷歌专属的定制工具,而是能够适配主流AI框架和模型的通用解决方案,为其商业化铺平了道路。
而市场正在用脚投票,Anthropic选择100万颗TPU构建算力底座,Meta考虑将TPU纳入核心数据中心,越来越多的AI公司开始采用GPU+TPU的异构部署模式。
面对Ironwood的挑战,英伟达在紧急声明中强调自己[能运行所有AI模型],但这恰恰暴露了其在专用场景效率上的劣势。
谷歌走的是专用优化+全栈整合路线,TPU专为深度学习尤其是Transformer负载设计,脉动阵列架构在矩阵运算上的效率远超通用GPU。
更重要的是,谷歌控制着从芯片设计、编译器、框架(TensorFlow/Jax)、分布式训练系统到数据中心基础设施的全链条,能够实现端到端优化。
这种全栈能力让谷歌可以做出许多英伟达无法实现的系统级创新,其目标是构建一个AI超级计算机即服务的完整体系,让客户无需关注底层基础设施,直接获得低成本、高可用的算力。
商业化破局,谷歌想撬动英伟达的底盘
过去十年,TPU主要服务于谷歌内部,但从2024年开始,谷歌启动了一场针对性极强的商业化攻势,其手法与当年英伟达扶持CoreWeave如出一辙,却更具杀伤力。
谷歌推出了云租赁+本地部署双模式,客户既可以通过谷歌云按需租用TPU算力,无需承担硬件采购和运维成本。
也可以通过TPU@Premises计划,将TPU直接部署在自有数据中心,兼顾低延迟和数据安全。
谷歌首先拿下了AI圈的[意见领袖]Anthropic,签订100万颗TPU的巨额订单,其中40万颗Ironwood由博通直接销售,60万颗通过谷歌云租赁,交易总价值超500亿美元。
这一合作不仅为TPU提供了最强背书,更让Anthropic的Claude系列模型成为TPU生态的[标杆应用]。
紧接着,谷歌将目标对准Meta,英伟达的核心客户之一。
据知情人士透露,若合作达成,Meta带来的年收入可能相当于英伟达数据中心年营收的10%。
一旦Meta成功部署TPU,将引发连锁反应,推动更多企业降低对英伟达的依赖。
为了打破开发者对CUDA的依赖,谷歌加大了对PyTorch的支持力度,推出PyTorch/XLA扩展和Torchax工具,让用户无需改写代码即可将PyTorch模型迁移到TPU上。
同时,谷歌向vLLM、SGLang等开源推理框架贡献TPU优化内核,打通了开源生态的关键环节。
虽然Jax的普及度仍不及CUDA,但谷歌的策略是降低迁移成本而非替代CUDA。
对于注重成本的企业而言,只要迁移成本足够低,TPU的能效优势就足以促使其尝试,而这正是谷歌的机会所在。
从市场趋势来看,ASIC的崛起已成必然。野村证券预测,2026年ASIC总出货量将首次超过GPU。
而TPU作为最成熟的ASIC产品,2025年出货量预计达250万片,2026年将超300万片。
对于整个AI产业而言,这种竞争是重大利好。谷歌TPU的商业化,将有效打破英伟达的定价垄断,降低AI算力的整体成本。
据测算,谷歌提供同等推理服务的底层成本仅为OpenAI的两成。
成本的降低将让更多中小企业和开发者能够使用先进AI算力,推动AI应用在各行业的普及。
结尾:
算力竞争的本质,是生态与成本的较量。
Ironwood的推出,标志着AI基础设施从GPU集群为王进入云+专用芯片+混合部署的2.0时代。
在这个新时代,谁能提供更高效的算力、更完善的生态、更低的总成本,谁就能掌握话语权。
无论最终格局如何,AI芯片市场的多元化竞争,终将惠及整个AI产业。
部分资料参考:腾讯科技:《一文读懂谷歌TPU》,半导体行业观察:《这颗不被看好的芯片,终于翻身?》,芝能智芯:《谷歌在推理时代的架构Ironwood TPU》,第一新声:《谷歌 Ironwood TPU 突袭,英伟达 GPU 迎来挑战者?》,Omni实验室:《谷歌十年造芯之的路巅峰之作,第七代TPU开放使用,跟英伟达传统GPU有些不同》,头部科技:《谷歌TPU让黄仁勋“慌了神”》
本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。
推荐阅读:
商务合作请加微信勾搭:
18948782064
请务必注明:
「姓名 + 公司 + 合作需求」

