大数跨境

最新一代Arm处理器ThunderX2技术系列(六):ThunderX2插槽性能

最新一代Arm处理器ThunderX2技术系列(六):ThunderX2插槽性能 Marvell
2018-06-29
2
导读:由于gcc是Linux平台最流行的开源编译器,因此在ThunderX2插槽性能层面,我们将主要关注ThunderX gcc测试以及其与Intel Xeon icc、AMD EPYC AOCC编译器优化

前言

Arm生态体系已经发展了很多年,其间x86生态系统已经经历了多代软件优化(如Intel的icc编译器等)。由于gcc是当前Linux平台最流行的开源编译器,因此在ThunderX2插槽性能层面,我们将主要关注ThunderX2 gcc测试以及其与Intel Xeon icc、AMD EPYC AOCC编译器优化测试的对比情况。


SPECrate2017_int_peak

我们测试的第一种工作负载是

SPECrate2017_int_peak performance通过此测试,我们希望展示Intel Xeon iccAMD EPYC AOCC以及ThunderX2使用gcc时的对比结果。

测试结果如下:

ThunderX2 SPEC Int Rate Peak编译器

优化结果

如上图展示,英特尔和AMD在使用定制编译器时的表现较好,ThunderX2 CN9980测试结果与AMD差距不大,但是其每CPU成本仅为英特尔和AMD产品的一半,因此ThunderX2是非常具有竞争力的产品。

AMD和英特尔官方层面不太支持STH(servethehome)gcc上运行SPEC CPU2017,因为使用他们经过优化的编译器时,测试结果非常突出。有些技术专家指出,AMD和英特尔专门针对基准测试进行了编译器优化,我们对此不深入讨论。

以下展示了使用gcc和-Ofast(而不是Arm厂商喜欢展示的-O2)进行测试的结果:

ThunderX2 SPEC Int Rate Peak Gcc7

使用gcc时,ThunderX2 CN9980的表现最为出色。这让所有测试人员印象深刻,这不是Cavium官方发布的测试结果,但更能代表使用gcc编译器的工作负载情况。尽管gcc不是性能最佳的选择,但其仍是市场上最广泛采用的解决方案。另外,Cray使用其自有的编译器时,ThunderX2gcc上的测试数据更为出色。

STREAM Triad内存带宽

在测试内存带宽时,我们采用的是整个行业都使用的John D. McCalpin开发的STREAM。STREAM是行业标准的工作负载,帮助我们进一步了解编译器的优化情况。

下图展示了编译器优化STREAM Triad的测试结果:

ThunderX2 Stream Triad编译器优化结果

这个测试揭示了一个关键的技术要点:ThunderX2采用8通道内存控制器设计,并以DDR4-2666速度运行。而Intel Xeon Gold采用6通道设计,因此即使使用经过优化的编译器,其性能表现依旧逊色于ThunderX2

通用编译器gcc的基线测试结果如下:

ThunderX2 Stream Triad Gcc7

ThunderX2 CN9980的测试结果最优,而Intel Xeon Gold 6148的测试结果下降了25%。我们估计icc在本基准测试中只能执行3次而不是4次操作,这或许是为了优化其闪存写入方式。

ThunderX2 Linpack性能

Linpack是目前比较常用的HPC基准测试。在展示测试结果之前,请注意以下两个方面:1)目前HPC市场上有很多定制编译器。在这种情况下,必然要求使用icc等工具,因为我们尚未获得Cray的Arm编译器,因此使用了gcc来测试ThunderX2。2)在本次基准测试中,由于4路SMT会降低性能且运行此类工作负载的HPC会关闭SMT,因此ThunderX2每CPU我们使用了32线程。

ThunderX2 SMT Off Linpack

ThunderX2的测试结果很不错,Cavium公司告知我们ThunderX2仍有提升的空间。AVX-512icc的表现也很出色。此次测试是在开启SMT的情况下进行的,因为这是大多数非HPC环境中的实际情况。由于此类情况下256个线程过多,我们还在运行32个线程及关闭SMT的情况下进行了测试,测试结果有显著的提升。由于我们在测试中不能像某些定制Arm编译器一样提供经过优化的二进制代码(Cray的代码),因此我们估计,注重LinpackHPC将能获得厂商提供的定制化工具,从而取得更好的性能表现。

*英文原文请访问“阅读原文”链接

近期文章回顾

1.XPliant可编程交换芯片

2.XPlilant满足不断演进的技术需求

3.Cavium FastLinQ for Microsoft Azure Stack 最佳实践

4.使用Cavium FastLinQ 25GbE通过iWARP加速Live Migration

5.  最新Cavium XPliant哈希增强功能简介

6. HPC将迎来处理器变革新时代

7. OCTEON III多核SoC助力TP-LINK千元级企业路由解决方案

8. NVMe over Fabrics,PCIe链路之外的更优选择?

9. S2D软件定义存储与SMB网络

10.Docker容器技术及Docker在Cavium ThunderX ARM服务器上的最佳实践

11.阿里云神龙ARM64云服务上线啦!双路96个core,欢迎大家申请试用!

12.vSAN软件定义存储与高速以太网特性 (25G/100G以及RDMA)

13.2018 MWC - Cavium主要发布及展示

14.2018 OCP Summit - Cavium公司主要发布及展示

15.浅析智能I/O适配器

16.Arm服务器迎来HPC新契机

17.最新一代Arm处理器ThunderX2技术系列(一):核心技术概览

18.最新一代Arm处理器ThunderX2技术系列(二):ThunderX2与Skylake技术对比

19.最新一代Arm处理器ThunderX2技术系列(三):ThunderX2 CPU和SKU

20.最新一代Arm处理器ThunderX2技术系列(四):ThunderX2生态体系

21.最新一代Arm处理器ThunderX2技术系列(五):ThunderX2与Intel Xeon及AMD EPYC架构对比



【声明】内容源于网络
0
0
Marvell
内容 495
粉丝 0
Marvell
总阅读427
粉丝0
内容495