大数跨境

谷歌Virgo Network:重新定义AI时代的数据中心网络

谷歌Virgo Network:重新定义AI时代的数据中心网络 AI产业链研究
2026-05-01
32
导读:谷歌在4月的 Google Cloud Next 大会上正式发布了 Virgo Network,这是一个专为 AI 工作负载打造的超大规模数据中心网络架构。

这两天在学习理解Google的网络架构。

谷歌在4月的 Google Cloud Next 大会上正式发布了 Virgo Network,这是一个专为 AI 工作负载打造的超大规模数据中心网络架构。

下面我们给读者介绍一下。

什么是 Virgo Network?

Virgo Network 是谷歌最新研发的“超大规模 AI 数据中心网络架构”(megascale data center fabric),它是谷歌 AI Hypercomputer 基础设施的核心组成部分。这个网络系统的设计理念可以用一个词概括:“园区即计算机”(campus-as-a-computer)。这意味着 Virgo Network 不再将数据中心视为独立的计算单元,而是将整个园区内的所有计算资源统一为一台超级计算机。

与传统数据中心网络相比,Virgo Network 最大的突破在于其扁平化的网络拓扑结构。它采用了两层非阻塞架构,而非传统的三层网络设计。通过使用高基数交换机(high-radix switches)——即拥有大量端口的交换机——Virgo Network 显著减少了网络层级,从而大幅降低了延迟。这种设计使得数据在芯片之间的传输路径更短、更直接,为 AI 训练和推理提供了更加可预测的性能表现。

惊人的规模与性能

Virgo Network 的性能指标令人震撼。单个 Virgo 网络架构可以连接多达13.4万颗 TPU 芯片(TPU 8t),提供高达47 Petabits/秒的无阻塞双向带宽。要理解这个数字的含义,可以这样想象:这相当于每秒传输约5,875 TB 的数据,足以在一秒钟内传输数千部高清电影的内容。

在性能提升方面,Virgo Network 实现了代际飞跃。与上一代网络相比,每个加速器(TPU 8t)的带宽提升了4倍,而未加载状态下的网络延迟降低了40%。这种低延迟特性对于延迟敏感型 AI 工作负载至关重要,能够确保大规模分布式训练任务的高效协同。

三层网络架构的创新设计

Virgo Network 采用了解耦的三层网络架构,每一层都有明确的职责分工:

Scale-up 互连层:这是最底层的网络,负责单个加速器 Pod 内部芯片之间的紧密耦合通信。在这一层,TPU 芯片通过高速互连实现超低延迟的数据交换。

Scale-out 东西向网络层:这是 Virgo Network 的核心创新所在。它负责连接不同的加速器 Pod,支持跨 Pod 的分布式训练任务。这一层采用扁平的两层拓扑结构,确保了大规模集群之间的高带宽、低延迟通信。

Jupiter 南北向前端网络:这一层负责连接存储和计算服务,使加速器能够访问数据中心内的其他资源。Jupiter 是谷歌此前已经部署的数据中心网络架构,Virgo Network 与之无缝集成。

这种解耦设计的优势在于,每一层网络可以独立升级,互不干扰。这不仅减少了网络瓶颈,还提高了整体系统的弹性,支持更快的技术迭代周期。

为 AI 工作负载量身定制

Virgo Network 的设计完全围绕现代 AI 工作负载的严苛需求展开。随着基础模型参数规模的爆炸式增长,传统通用网络已经难以满足需求。Virgo Network 通过与机器学习加速器的协同设计,确保网络架构与其支持的硬件完美匹配。

特别值得一提的是,Virgo Network 专门针对谷歌最新的 TPU 8t 芯片进行了优化。TPU 8t 配备了 SparseCore 数据流处理器,能够卸载数据依赖型的 all-gather 操作(即根据特定计算需求从系统各处拉取数据),而 Virgo Network 的高带宽、低延迟特性确保了这些操作不会成为性能瓶颈。

此外,Virgo Network 还支持 RDMA(远程直接内存访问)技术,使得不同节点之间可以直接访问彼此的内存,无需经过操作系统内核,进一步降低了通信延迟。

可靠性设计:应对大规模集群的挑战

在超大规模 AI 集群中,硬件故障是不可避免的。因此,故障隔离和快速恢复能力成为网络设计的核心原则。Virgo Network 采用了多平面独立交换设计(multi-planar design with independent control domains),确保局部故障不会影响整个集群的运行。

这种设计理念类似于飞机的冗余系统:即使某个交换平面出现问题,其他平面仍然可以继续工作,保证 AI 训练任务不会因为单点故障而中断。对于需要数周甚至数月才能完成的大型模型训练来说,这种可靠性至关重要。

Virgo Network 的战略意义

Virgo Network 不仅仅是一个技术升级,更代表了谷歌对未来 AI 基础设施的战略思考。通过将整个数据中心园区视为一台统一的超级计算机,谷歌正在构建一个能够支撑下一代 AI 应用的基础平台。

这种“园区即计算机”的理念意味着,AI 研究人员和开发者可以像使用单台计算机一样,轻松调用数万颗芯片的计算能力,而无需担心底层网络的复杂性。这将大大降低大规模 AI 训练的门槛,加速 AI 技术的创新和应用。

从更宏观的角度看,Virgo Network 的发布也反映了云计算巨头们在 AI 基础设施领域的激烈竞争。随着 AI 模型规模持续增长,谁能提供更强大、更高效的计算和网络基础设施,谁就能在 AI 时代占据先机。

END




【声明】内容源于网络
0
0
AI产业链研究
围绕人工智能展开研究,涵盖基础设施、算法及应用等多个方面,同时也会分享研究过程中的一些心得体会
内容 64
粉丝 0
AI产业链研究 围绕人工智能展开研究,涵盖基础设施、算法及应用等多个方面,同时也会分享研究过程中的一些心得体会
总阅读3.4k
粉丝0
内容64