大数跨境

最新一代Arm处理器ThunderX2技术系列(二):ThunderX2与Skylake技术对比

最新一代Arm处理器ThunderX2技术系列(二):ThunderX2与Skylake技术对比 Marvell
2018-05-25
1
导读:希望取代英特尔至强处理器并成为首选引擎处理器必须做到以下两点之一: 1.能够相对无缝地取代现有系统中的至强处理器。2.能够提供更出色的每美元、每瓦特和每机架单位性能。从当前发布的产品信息来看,Thun

希望取代英特尔至强(Xeon)处理器并成为通用计算应用首选引擎处理器必须做到以下两点之一:

 1  - 能够相对无缝地取代现有系统中的Xeon处理器,就像本世纪初的Opteron一样。

 2  - 能够提供更出色的每美元、每瓦特和每机架单位性能。

从当前发布的产品信息来看,ThunderX2芯片做到了这两点。

不同客户对每美元、每瓦特和每机架单位性能有不同的看法,但这几个要素都是必不可少的评估要素,即使由于资金(如高频交易)或空间不是问题而排除其中某一个要素,使得计算密度无关紧要(例如,靠近主城区的农村企业数据中心就不会像超大规模数据中心一样面临空间压力),或者不需要特别出色的性能(这是英特尔每年向数百万家企业销售如此多中端处理器的原因)。为了满足更广泛客户的不同需求,Cavium为新近发布的ThunderX2芯片开发超过40种不同SKU,与Qualcomm Centriq 2400系列直接竞争(Centriq2400系列在去年秋季发布时只有4种SKU)

此前,Cavium发布了ThunderX2芯片基于单插槽服务器的初期基准测试结果。随着ThunderX2芯片的普遍上市,Cavium和以往一样在双插槽服务器上进行了计算和内存带宽测试,并分享了布里斯托大学的测试结果(布里斯托大学是HPC领域Arm服务器权威研究机构之一),布里斯托大学的测试结果主要展示ThunderX2与Intel Skylake Xeon在HPC领域的竞争态势。

由于内存带宽对工作负载非常关键,我们首先来看通过STREAMTriad测试检验内存带宽的数据结果(STREAMTriad测试是衡量系统相对内存带宽的试金石)。下图显示了一对高端32核ThunderX2(运行速度为2.5GHz)与一对SkylakeXeon EP-8176铂金处理器的对比情况(该处理器包含28个内核,分别以2.1GHz的速度运行,是SKU中的高端产品,可提供均衡能效)。


两个系统中的内存均以两款处理器的最高速度2.67GHz运行。ThunderX2芯片有8个内存控制器,而Intel Skylakes只有6个,这是导致Xeon和ThunderX2间出现巨大内存带宽差异的原因所在。 

从理论上讲,ThunderX2的DDR4内存控制器数量要多出33%,因此在相同DIMM容量和运行速度下应该提供多出33%的内存带宽。在实际测试中,Cavium的带宽优势为23.5%;通过进一步微调,应该能获得更好的数据。英特尔STREAMTriad测试中提到,一对"Broadwell"Xeon E5-2699 v4处理器在STREAMTriad测试中取得了约135GB/sec的成绩,而高端XeonSP-8180M铂金芯片的成绩为225GB/sec,同时可将内存存取时间保持在大约130纳秒。因此,英特尔Xeon在STREAMTriad测试上的表现更为出色。

在双插槽服务器上进行的SPEC整数和浮点计算测试中,一对Cavium标准2.2GHz 32核ThunderX2芯片与一对Intel Skylake Xeon SP-6140金牌芯片(包含20个内核,分别以2.5GHz的速度运行,激活27.5MB缓存)进行了性能对比。二者都是走量SKU而非高端产品。Xeon芯片的额定功耗为150瓦(不包括用于连接到I/O南桥的功耗),而ThunderX2芯片的额定功耗为180瓦(包括嵌入的所有I/O控制器)。之前,Cavium只发布了SPEC测试中测得的相对性能,在此次发布的是绝对数据:

Cavium做了大量工作来微调GNU开源编译器(GCC),确保它们能很好地在ThunderX2芯片上运行。在此次测试中,ThunderX2获得了和Xeon芯片上运行编译器时差不多相同的性能数据。

在浮点运算方面,ThunderX2芯片中定制的Armv8内核包含一对128位NEON运算单元,Xeon SP金牌芯片包含一个512位AVX-512单元,其中激活了2个熔加运算单元(Fused Multiply Add - FMA,某些Skylake芯片中只激活一个FMA)。在SPEC浮点运算测试中,如果使用GCC编译器,ThunderX2可以完胜英特尔芯片,但在Xeon使用英特尔自己的编译器时,Xeon拥有约26.5%的比较优势。Cavium正在与Arm公司密切合作开发更为优化的编译器,使得整数和浮点运算性能进一步提升15%。

英特尔Xeon SP-6148处理器的售价是3,072美元,而Cavium 32核2.2GHz ThunderX2售价为1,795美元。假如Cavium和Arm公司通过优化编译器将性能提升15%,同时如果在Xeon芯片上使用英特尔编译器,那么在整数测试中,ThunderX2每SPEC单位成本为14.59美元,而Xeon SP-6148每SPEC单位成本为28.44美元。这是非常明显的差距。尽管英特尔在SPEC浮点运算测试中具备性能优势,但Cavium具备更为明显的性价比优势,Cavium ThunderX2每浮点单位成本为20.14美元,而Intel Xeon SP每浮点单位成本为31.35美元。

对于更加商业化的工作负载,Cavium选择了SPEC JBB Java中间件和数据库基准测试,使用更大的内核和线程数以及更高的内存带宽,并在二者之间实现了理想的平衡。最终测试表明ThunderX2与双插槽Xeon-SP相比有明显的领先优势。

进行SPECjBB基准测试的方法有两种:一种注重增加通过系统完成的交易数量,另一种注重延迟和最大限度减少大尾巴(big tail)。英特尔曾经发布Xeon SP-8180M铂金芯片在这些测试中的结果,但一直没有公布Xeon Sp6148的性能结果,因此Cavium使用了高端产品的测试结果来估计这款走量产品的性能。无论如何进行测试或估算,ThunderX2芯片都拥有30.5%或30.9%的性能优势且都比Xeon SP低大约40.5%的成本完成单位工作(在原始CPU一级)。

HPE将在Apollo 70超级计算机中使用ThunderX2,因此HPE对Xeon和ThunderX2节点进行了非常严苛的High Performance Conjugate Gradients(HPCG)基准测试。Cavium公司数据中心处理器部门总经理Gopal Hegde向《The Next Platform》透露了HPE的测试结果。在走量产品中使用GCC 7.2编译器时,ThunderX2单个双插槽节点的成绩为350亿次浮点运算,而Xeon SP-6148为360亿次浮点运算。双方的性能差距非常小,而ThunderX芯片更为经济合算,其性价比较Xeon SP-6148高60%。

以下分享的是布里斯托大学Isambard项目团队在Broadwell、Skylake Xeon和ThunderX2单插槽服务器上进行各种HPC微基准测试(microbenchmark)的最新结果。这些测试分别在18核Broadwell、22核Skylake和32核ThunderX2处理器上进行。

布里斯托大学的测试结果和单插槽服务器测试结果大致相同,这也印证了将2个CPU捆绑到一个共享内存系统时来自英特尔或Cavium NUMA互连的影响。

以下的图片显示了Isambard团队在相同设备上测试的一系列更高级别的应用,Isambard团队将在稍后发布更详细的测试信息。

在不同环境下,由于架构代码编写的方式不同或者底层架构的不同特点,Skylake芯片及ThunderX2芯片的性能表现各有优势。但ThunderX2在大致相同的功耗和空间条件下在处理真实环境HPC工作负载时提供高达85%的性能,而且在上面显示的8种真实环境HPC应用中提供平均高出42%的每美元性能。我们相信,如果ThunderX2编译器通过Allinea进一步改进,两者之间的性能差距将进一步缩小。

*英文原文请访问“阅读原文”链接

近期文章回顾

1.XPliant可编程交换芯片

2.XPlilant满足不断演进的技术需求

3.Cavium FastLinQ for Microsoft Azure Stack 最佳实践

4.使用Cavium FastLinQ 25GbE通过iWARP加速Live Migration

5.  最新Cavium XPliant哈希增强功能简介

6. HPC将迎来处理器变革新时代

7. OCTEON III多核SoC助力TP-LINK千元级企业路由解决方案

8. NVMe over Fabrics,PCIe链路之外的更优选择?

9. S2D软件定义存储与SMB网络

10.Docker容器技术及Docker在Cavium ThunderX ARM服务器上的最佳实践

11.阿里云神龙ARM64云服务上线啦!双路96个core,欢迎大家申请试用!

12.vSAN软件定义存储与高速以太网特性 (25G/100G以及RDMA)

13.2018 MWC - Cavium主要发布及展示

14.2018 OCP Summit - Cavium公司主要发布及展示

15.浅析智能I/O适配器

16.Arm服务器迎来HPC新契机

17.最新一代Arm处理器ThunderX2技术系列(一):核心技术概览



【声明】内容源于网络
0
0
Marvell
内容 0
粉丝 0
Marvell
总阅读0
粉丝0
内容0