大数跨境
0
0

AMD EPYC Turin平台直通P2P的实践与探索

AMD EPYC Turin平台直通P2P的实践与探索 Byte-哈哈摩
2025-12-02
1
导读:🚀 前言基于AMD专家的支持,参考AMD共享博文释放八卡 5090 的终极性能:AMD EPYC Turin

🚀 前言

    基于AMD专家的支持,参考AMD共享博文释放八卡 5090 的终极性能:AMD EPYC Turin 平台上的 NCCL 最佳实践中的过程及思路,作者在同平台下对AMD原厂提到的数据进行一比一复刻。已达到原文同等水平
    声明基于AMD公开的技术说明进行研究,但是(公司)内部在相关技术细节上的实现及支持不作说明,仅对复刻过程及最终数据进行展示。以展现(我们)产品的相关软硬件整体性能表现。另外优化是针对平台,不针对具体的cpu型号进行遍历,cpu单体的频率、L3 Cache、cores等存在差异会导致数据的一些差异。
    有详细产品需求的朋友,可私信作者转交相关人员对接内部人员可直接转载宣传。

    🚀🚀 优化前的问题描述

    直通topo类前几篇博文都详细介绍、展示过,此处不作重复说明。直入主题。

    1. 优化前数据展示

      上图可以看到,在直通topo中测试nccl的时候设置NCCL_P2P_LEVEL=SYS,Alltoall数据仅为1G,很明显不符合预期,且前面文章也介绍到Intel平台同等环境下(直通P2P)测试,数据均可达30G+。所以  压力给到AMD的同事,一起协助定位。

      定位过程.......此处略去10000字~ 

      最终,问题完美解决,数据也达到预期,且超出Intel平台(实事求是,数据说话,不存在偏向某个cpu平台,AMD Turin对标Intel 哪一代?大家应该都清楚)

    🚀🚀🚀优化后的成果展示

    从数据来看,AMD EPYC Turin平台在直通配置下,走P2P的测试值超过常规测试走SHM(共享内存)的数据,所以这个数据表现还是很优秀的。主要原因归结于AMD Turin这一代在xgmi、Data Fabric等方面的一些重大提升和优化。


    精彩推荐:






    SuperNIC Cx-8方案落地实测后的深层解析&数据共享


    RTX 4090 + RTX 5090的P2P通信实现


    nvidia-smi 系列命令介绍


    NVIDIA GPU基础环境部署


    NVIDIA GPU常见报错信息分享及故障分析流程介绍


    < 欢迎 点赞 评论 + 关注 >

    【声明】内容源于网络
    0
    0
    Byte-哈哈摩
    你的每一次进步,都是重要的一 byte❤️
    内容 25
    粉丝 0
    Byte-哈哈摩 你的每一次进步,都是重要的一 byte❤️
    总阅读23
    粉丝0
    内容25