Ironwood 的性能比上一代快4倍,单个超级集群可连接9216颗TPU,总带宽高达9.6Tb/s,共享1.77PB高速HBM。
AI 最后一场“大规模实验”
AI 行业当前的共识是:模型越大、智能越强,但这一规律是否仍然成立?Ironwood 的问世,将成为验证这一命题的关键时刻。
换句话说,Ironwood 不仅是算力的武器,更是 AI行业的一次“真相实验”。
Ironwood的超强“能量”
Ironwood 的设计理念非常激进:同一套硬件,既能训练最前沿的大模型,又能直接用于大规模推理部署。
核心指标如下:比TPU v5p峰值性能高10倍;比TPU v6e每芯片性能高4倍;9,216颗芯片组成单个Superpod,拥有9.6Tb/s 芯片间互联带宽;共享1.77PB HBM内存,大幅削减跨设备延迟。
在系统层面,Google采用了光学电路交换(Optical Circuit Switching) 技术,可在节点故障时实时重路由;再加上Jupiter网络结构,可把数十个集群链接成“数十万 TPU”的超级算力矩阵,真正实现“规模与稳定性并行”。
从硬件到软件:全面整合的AI平台
Google同时推出一系列软件栈升级:
这一系列优化让开发者能更轻松地利用TPU集群进行训练与推理,而不必在性能与成本之间妥协。
C4A Metal(即将预览)提供专用Arm裸机服务器:最高96 vCPU、768GB 内存、100Gbps 网络、支持 Hyperdisk,适合虚拟化或原生Arm开发环境。
C4A系列提供稳定高性能配置:最高72 vCPU、576GB 内存、100Gbps 网络;支持多种 Hyperdisk 模式与6TB本地 SSD;并具备高级维护控制能力。
值得注意的是,过去几年英伟达的NVL72 架构(72颗GPU 的液冷互联系统)在训练和推理上几乎无可替代,成为全球数据中心的标准配置。
但Ironwood一旦能在9,000+TPU一体化训练 中稳定运行,并通过Jupiter Fabric扩展到数十万芯片级规模,就意味着Google拥有了一个能挑战NVL72 的「超大规模替代方案」。
这不仅是性能层面的竞争,更是生态层面的松动:Google的软硬件协同(TPU + GKE + MaxText + vLLM)在效率和成本上形成封闭优势,可能让更多模型开发从GPU阵营迁移到 TPU平台,不仅云巨头自研芯片将大干快上,博通、美满、联发科等的ASIC阵营将迎来全新商机,对英伟达的护城河也将构成有形的挑战。
进芯片群请扫码


