2015年SIGCOMM,谷歌首次披露自家数据中心网络Jupiter的架构,Jupiter Rising: A Decade of Clos Topologies and Centralized Control in Google’s Datacenter Network;
2022年,谷歌在SIGCOMM更新Juniper的最新进展,Jupiter Evolving: Transforming Google’s Datacenter Network via Optical Circuit Switches and Software-Defined Networking;
2023年,谷歌在SIGCOMM为规模部署的独门绝技OCS点赞,Lightwave Fabrics: At-Scale Optical Circuit Switching for Datacenter and Machine Learning Systems;
关于谷歌网络的前世今生,欢迎订阅专题:谷歌云网络
谷歌Apollo: 价值30亿美元
数据中心网络游戏规则改变者

未来展望
通过开发光交换矩阵我们从中获得一些经验教训,为未来的工作指明方面。也许最重要的就是,上规模后“low-hanging fruit”可以提供实质性的好处。光交换矩阵能够以与数据速率无关的方式逐步扩展系统,并可以作为建筑基础设施的一部分,从而提供长期效益。
另一个关键教训是光交换矩阵绝不是“one size fits all”。ML 用例对光交换矩阵的要求推动了与数据中心网络用例不同的特定设计选择。举个具体的例子,当我们第一次开始使用40 Gb/s的光交换矩阵时,我们不知道收发器技术将如何发展。尽管如此,我们在数据速率相差一个数量级(400 Gb/s 与 40 Gb/s)之间保持了互操作性。
一个重要的实践教训是,在更大的规模上,“everything breaks”。由于测试所有系统级极端情况越来越困难,这促使人们使用由光交换矩阵支持的可重新配置拓扑,这些拓扑结构可以适应处理不可预见的情况或工作负载。
展望未来的光交换矩阵,free-space MEMS OCS技术在所有主要性能轴(规模,交换时间,损耗)上都可以继续改进,现有文献和我们当前的内部开发工作证明了这一点,我们制造了更大的基于300×300 MEMS的OCS,具有更高的可靠性和增强的链路质量监控功能。其他交换技术,如压电致动器[piezo-electric actuators]和硅光子MEMS [silicon photonic],在更快的交换和更低的驱动电压方面具有根本优势,可能会更适合某些应用。
基于现有和未来的OCS技术可以支持一类用例即基于长流或者确定性流量模式。每个潜在的用例都需要对OCS、收发器和/或交换/TPU芯片进行特定的协同设计。对于数据中心网络,另一个潜在的用例是园区网络。对于 ML,另一个用例是支持更高维度的拓扑,例如 4D 或 6D torus,与 3D torus相比,具有更大的对分带宽、更低的延迟和更大的可扩展性。
未来另一类用例是基于光交换矩阵可以支持更快的重新配置速度。对于ML,在训练期间更改slice的配置以匹配不同计算阶段的通信模式有可能提高性能。快速光交换矩阵的潜在用例必须在收发器以及可在必要时间尺度上运行的控制平面的挑战与优势之间取得平衡,所开发的收发器必须具备快速初始化和足够的链路裕量。案例包括在纳秒和微秒级别的时间尺度上切换光的技术。
这些新技术的开发可以为光交换矩阵提供新的用例,这些用例建立在我们现有工作的基础上(参见§2.2.2),为未来的大规模工作负载(如ML模型训练)创建大规模的分层混合电气/光学网络。这种分层混合网络是支持未来大规模工作负载的有潜力的途径。

相关阅读:
P4教程 P4应用
P4可编程SDN交换机
基于国产FPGA的智能网卡
Tofino1 | Tifino 2 |Tofino 3
基于可编程交换机的网络仿真平台
谷歌再憋大招,最新Jupiter数据中心网络“光“芒四射!
谷歌论文公布 AI 超级计算机性能远超 A100,光交换取代 Infiniband 成为杀手锏!


