大数跨境
0
0

掀桌子的ASIC来了!

掀桌子的ASIC来了! 甘肃伯骊江3D打印科技有限公司
2025-11-07
5
在算力军备竞赛的战场上,Google终于亮出了压箱底的武器。

这款名为Ironwood的新一代TPU,如今正式量产并在数周内上线。它不仅是Google云基础设施的巅峰之作,更是对英伟达主导地位的正面挑战。

Ironwood 的性能比上一代快4倍,单个超级集群可连接9216颗TPU,总带宽高达9.6Tb/s,共享1.77PB高速HBM。

关键在于,如果它能在9,000个TPU间完成all-reduce操作(即在大规模集群中高效同步参数),那它就能训练远超Nvidia NVL72所能支撑的模型规模。

这意味着,它不仅能高效训练10万亿参数模型(10T),甚至有能力迈向100万亿参数(100T)的模型训练——一次真正意义上的「极限实验」。

AI 最后一场“大规模实验

AI 行业当前的共识是:模型越大、智能越强,但这一规律是否仍然成立?Ironwood 的问世,将成为验证这一命题的关键时刻。


如果Google能用100T级模型展现出更强的智能与新型涌现行为(emergent behavior),AGI(通用人工智能)竞赛将全面提速。

但如果性能提升停滞,这可能标志着“规模化红利”走到尽头,也可能引发一次信心修正——甚至是泡沫破裂。

换句话说,Ironwood 不仅是算力的武器,更是 AI行业的一次“真相实验”。

Ironwood的超强“能量”

Ironwood 的设计理念非常激进:同一套硬件,既能训练最前沿的大模型,又能直接用于大规模推理部署。

核心指标如下:比TPU v5p峰值性能高10倍;比TPU v6e每芯片性能高4倍;9,216颗芯片组成单个Superpod,拥有9.6Tb/s 芯片间互联带宽;共享1.77PB HBM内存,大幅削减跨设备延迟

在系统层面,Google采用了光学电路交换(Optical Circuit Switching) 技术,可在节点故障时实时重路由;再加上Jupiter网络结构,可把数十个集群链接成“数十万 TPU”的超级算力矩阵,真正实现“规模与稳定性并行”。

从硬件到软件:全面整合的AI平台

Google同时推出一系列软件栈升级:

GKE Cluster Director提供拓扑感知的任务调度;MaxText简化SF与GRPO训练流程;vLLM 现已支持在TPU上运行,仅需轻量化配置;GKE Inference Gateway将首次推理延迟降低最多96%,推理成本下降30%。

这一系列优化让开发者能更轻松地利用TPU集群进行训练与推理,而不必在性能与成本之间妥协。

除了TPU集群,Google 也在完善通用计算层的性能——这正是Axion Arm系列虚拟机的使命所在。

N4A(预览版)最多支持64 vCPU、512GB 内存、50Gbps 网络;支持自定义机器类型与 Hyperdisk 存储;性价比较同类x86虚拟机提升约2倍。

C4A Metal(即将预览)提供专用Arm裸机服务器:最高96 vCPU、768GB 内存、100Gbps 网络、支持 Hyperdisk,适合虚拟化或原生Arm开发环境。

C4A系列提供稳定高性能配置:最高72 vCPU、576GB 内存、100Gbps 网络;支持多种 Hyperdisk 模式与6TB本地 SSD;并具备高级维护控制能力。

值得注意的是,过去几年英伟达的NVL72 架构(72颗GPU 的液冷互联系统)在训练和推理上几乎无可替代,成为全球数据中心的标准配置。


但Ironwood一旦能在9,000+TPU一体化训练 中稳定运行,并通过Jupiter Fabric扩展到数十万芯片级规模,就意味着Google拥有了一个能挑战NVL72 的「超大规模替代方案」。


这不仅是性能层面的竞争,更是生态层面的松动Google的软硬件协同(TPU + GKE + MaxText + vLLM)在效率和成本上形成封闭优势,可能让更多模型开发从GPU阵营迁移到 TPU平台,不仅云巨头自研芯片将大干快上,博通、美满、联发科等的ASIC阵营将迎来全新商机,对英伟达的护城河也将构成有形的挑战。

进芯片群请扫码

【声明】内容源于网络
0
0
甘肃伯骊江3D打印科技有限公司
1234
内容 479
粉丝 0
甘肃伯骊江3D打印科技有限公司 1234
总阅读1.3k
粉丝0
内容479