(六)当分布式训练碰到P4可编程的网络
自从人工智能
成为科研人员的热土
各路人马精益求精努力
避免人工智能成为人工智障
因此训练尤其是分布式训练成为常态
此时网络既能载舟亦能覆舟成为新瓶颈

因此
各种分布式训练
与可编程网络的结合
成为学科交叉的又一个热点

2019年微软
首次公开SwitchML宣布

但是
SwitchML
有很大的局限性
并没有解决多Rack分布
以及有效利用交换机资源的问题

因此清华大学团队
推出改进型版本ATP
支持Multi-tenant/Multi-rack

边界越大
意味着困难越大
多机架就要正面网络的问题
ATP在可靠性拥塞控制等方面做了探索

独乐乐
不如众乐乐
和SwitchML一样
ATP代码同样在Github开源



