这两天在学习理解Google的网络架构。
谷歌在4月的 Google Cloud Next 大会上正式发布了 Virgo Network,这是一个专为 AI 工作负载打造的超大规模数据中心网络架构。
下面我们给读者介绍一下。
什么是 Virgo Network?
Virgo Network 是谷歌最新研发的“超大规模 AI 数据中心网络架构”(megascale data center fabric),它是谷歌 AI Hypercomputer 基础设施的核心组成部分。这个网络系统的设计理念可以用一个词概括:“园区即计算机”(campus-as-a-computer)。这意味着 Virgo Network 不再将数据中心视为独立的计算单元,而是将整个园区内的所有计算资源统一为一台超级计算机。
与传统数据中心网络相比,Virgo Network 最大的突破在于其扁平化的网络拓扑结构。它采用了两层非阻塞架构,而非传统的三层网络设计。通过使用高基数交换机(high-radix switches)——即拥有大量端口的交换机——Virgo Network 显著减少了网络层级,从而大幅降低了延迟。这种设计使得数据在芯片之间的传输路径更短、更直接,为 AI 训练和推理提供了更加可预测的性能表现。
惊人的规模与性能
Virgo Network 的性能指标令人震撼。单个 Virgo 网络架构可以连接多达13.4万颗 TPU 芯片(TPU 8t),提供高达47 Petabits/秒的无阻塞双向带宽。要理解这个数字的含义,可以这样想象:这相当于每秒传输约5,875 TB 的数据,足以在一秒钟内传输数千部高清电影的内容。
在性能提升方面,Virgo Network 实现了代际飞跃。与上一代网络相比,每个加速器(TPU 8t)的带宽提升了4倍,而未加载状态下的网络延迟降低了40%。这种低延迟特性对于延迟敏感型 AI 工作负载至关重要,能够确保大规模分布式训练任务的高效协同。
三层网络架构的创新设计
Virgo Network 采用了解耦的三层网络架构,每一层都有明确的职责分工:
Scale-up 互连层:这是最底层的网络,负责单个加速器 Pod 内部芯片之间的紧密耦合通信。在这一层,TPU 芯片通过高速互连实现超低延迟的数据交换。
Scale-out 东西向网络层:这是 Virgo Network 的核心创新所在。它负责连接不同的加速器 Pod,支持跨 Pod 的分布式训练任务。这一层采用扁平的两层拓扑结构,确保了大规模集群之间的高带宽、低延迟通信。
Jupiter 南北向前端网络:这一层负责连接存储和计算服务,使加速器能够访问数据中心内的其他资源。Jupiter 是谷歌此前已经部署的数据中心网络架构,Virgo Network 与之无缝集成。
这种解耦设计的优势在于,每一层网络可以独立升级,互不干扰。这不仅减少了网络瓶颈,还提高了整体系统的弹性,支持更快的技术迭代周期。
为 AI 工作负载量身定制
Virgo Network 的设计完全围绕现代 AI 工作负载的严苛需求展开。随着基础模型参数规模的爆炸式增长,传统通用网络已经难以满足需求。Virgo Network 通过与机器学习加速器的协同设计,确保网络架构与其支持的硬件完美匹配。
特别值得一提的是,Virgo Network 专门针对谷歌最新的 TPU 8t 芯片进行了优化。TPU 8t 配备了 SparseCore 数据流处理器,能够卸载数据依赖型的 all-gather 操作(即根据特定计算需求从系统各处拉取数据),而 Virgo Network 的高带宽、低延迟特性确保了这些操作不会成为性能瓶颈。
此外,Virgo Network 还支持 RDMA(远程直接内存访问)技术,使得不同节点之间可以直接访问彼此的内存,无需经过操作系统内核,进一步降低了通信延迟。
可靠性设计:应对大规模集群的挑战
在超大规模 AI 集群中,硬件故障是不可避免的。因此,故障隔离和快速恢复能力成为网络设计的核心原则。Virgo Network 采用了多平面独立交换设计(multi-planar design with independent control domains),确保局部故障不会影响整个集群的运行。
这种设计理念类似于飞机的冗余系统:即使某个交换平面出现问题,其他平面仍然可以继续工作,保证 AI 训练任务不会因为单点故障而中断。对于需要数周甚至数月才能完成的大型模型训练来说,这种可靠性至关重要。
Virgo Network 的战略意义
Virgo Network 不仅仅是一个技术升级,更代表了谷歌对未来 AI 基础设施的战略思考。通过将整个数据中心园区视为一台统一的超级计算机,谷歌正在构建一个能够支撑下一代 AI 应用的基础平台。
这种“园区即计算机”的理念意味着,AI 研究人员和开发者可以像使用单台计算机一样,轻松调用数万颗芯片的计算能力,而无需担心底层网络的复杂性。这将大大降低大规模 AI 训练的门槛,加速 AI 技术的创新和应用。
从更宏观的角度看,Virgo Network 的发布也反映了云计算巨头们在 AI 基础设施领域的激烈竞争。随着 AI 模型规模持续增长,谁能提供更强大、更高效的计算和网络基础设施,谁就能在 AI 时代占据先机。
END

