🚀 前言
🚀🚀 优化前的问题描述
直通topo类前几篇博文都详细介绍、展示过,此处不作重复说明。直入主题。
优化前数据展示
上图可以看到,在直通topo中测试nccl的时候设置NCCL_P2P_LEVEL=SYS,Alltoall数据仅为1G,很明显不符合预期,且前面文章也介绍到Intel平台同等环境下(直通P2P)测试,数据均可达30G+。所以 压力给到AMD的同事,一起协助定位。
定位过程.......此处略去10000字~
最终,问题完美解决,数据也达到预期,且超出Intel平台(实事求是,数据说话,不存在偏向某个cpu平台,AMD Turin对标Intel 哪一代?大家应该都清楚)
🚀🚀🚀优化后的成果展示
从数据来看,AMD EPYC Turin平台在直通配置下,走P2P的测试值超过常规测试走SHM(共享内存)的数据,所以这个数据表现还是很优秀的。主要原因归结于AMD Turin这一代在xgmi、Data Fabric等方面的一些重大提升和优化。

