大数跨境

最新一代Arm处理器ThunderX2技术系列(一):核心技术概览

最新一代Arm处理器ThunderX2技术系列(一):核心技术概览 Marvell
2018-05-18
2
导读:日前,Cavium公司发布了Cavium第2代Arm v8-A SoC处理器ThunderX2®。 受到了业界以及生态合作伙伴的广泛关注。本文将主要介绍ThunderX2®芯片的核心技术细节,帮助您全

日前,Cavium公司发布了第2代Arm v8处理器ThunderX2,受到了业界以及生态合作伙伴的广泛关注。本文将主要介绍ThunderX2芯片的核心技术细节,帮助您全面了解最新一代Arm处理器。

最新一代ThunderX2芯片核心技术

ThunderX2Cavium2Armv8-A定制内核(可交付与最高端传统服务CPU不相上下的内核和插槽级性能)与最出色的内存带宽、内存容量及IO配置相结合,极大地提高了计算吞吐量,更加适用于超大规模和HPC工作负载。

ThunderX2系统框图:

ThunderX2具备32个内核,采用了定制设计,并利用乱序执行和同步多线程(SMT)来提高性能。这些内核基于Arm v8.1规范进行设计,使用台积电16nm制程,主频支持高达2.5GHz。 

ThunderX2内核都支持睿频加速(turboboosting)技术,睿频加速模式有两种:一种是只有一个内核运行,另一种是所有内核都运行;只有一个内核时的峰值速度为2.96GHz。

ThunderX2芯片支持SMT模式,每个内核运行1、2或4个线程;两线程SMT可以将吞吐量提高大约20%,而四线程SMT可以将吞吐量提高大约30%。类似英特尔Xeon处理器上运行两线程HyperThreading以及IBM在Power8和Power9芯片上运行四线程SMT。

ThunderX2内核可以支持2个128位NEON浮点单元,因此每个内核在每个时钟周期内可以完成256位浮点运算。这相当于“Haswell”和“Broadwell” Xeon E5内核中每个AVX2运算单元(math unit)处理能力的一半——这些内核可以在每个时钟周期内完成32次单精度或16次双精度浮点运算。英特尔将Skylake Xeon处理器迁移到了AVX-512。这些处理器为512位,可以在每个时钟周期支持双倍的运算,即64次单精度或32次双精度浮点运算。

ThunderX2芯片每插槽具备8个DDR4内存控制器,每内存控制器双DIMM,每插槽共16个DIMM。双插槽配置中提供最高4Tb的内存,比Xeon Skylake铂金版CPU高33%的内存带宽和内存容量。

ThunderX2在内存中提供大量可靠性特性,使它达到服务器级性能水平,包括1位和2位纠错码、内存地址奇偶校验保护、内存巡检功能(demand and patrol scrubbing)、故障DIMM识别和有助于防止数据中毒(data poisoning)攻击的错误隔离(error containment)等。 

ThunderX2芯片配置Cavium Coherent Processor Interconnect(CCPI2)的第2代NUMA芯片组;该芯片组以600Gb/sec的速度运行,目前可以扩展到双插槽及四插槽。CCPI2互连使用双向以25Gb/sec的速度运行的24 SerDes,在功能上类似于Nvidia公司"Pascal"和"Volta"GPU加速器上的NVLink端口、IBM公司Power9芯片上的NVLink接口以及Power9芯片上的"Bluelink"OpenCAPI端口。

在I/O配置方面,ThunderX2芯片具备14个PCI-Express 3.0控制器,支持x1、x4、x8和x16,可以在插槽中提供最多56个I/O通道。SoC同时配置SATA v3外围控制器、USB3外围控制器和各种通用I/O端口并嵌入了Trust Zone加密协处理器和电源管理控制器,因此不需要额外的芯片组就可以在单插槽或双插槽配置中使用这些性能(而Xeon芯片与此不同)。该芯片安装在LGA插槽中,这是传统服务器生产商的首选做法

ThunderX2芯片设计内部架构

ThunderX2芯片内部架构图:

ThunderX2芯片实现了全面虚拟化,可支持Arm公司SMMUv3内存管理和GICv3通用I/O管理规范。

ThunderX2芯片设计的核心是“环状互连结构”,此结构可以在完全无阻塞的Fabric架构中提供6Tb/sec的总带宽。这意味着任何内核都可以访问任何其它内核中的任何信息,而且任何内核都可以访问任何内存控制器并进入主内存,而且不会造成双向环路的过量使用(这与英特尔在利用3种不同Skylake Xeon芯片迁移到网状网络之前过去几代Xeon中所采用的方法非常相似)。

ThunderX2芯片每个内核提供32KB的L1数据缓存和32KB的L1指令缓存,以及256KB的L2缓存。内核分为4组,每一组作为一个端口在该相关环状互连拓扑中运行,接入环状拓扑中8个2MB的L3缓存中的2个切片(slice),因此每组4个内核共4 MB的缓存。在分别包含4个内核的8个内核组中,总共有32MB的分布式和共享L3缓存,即每个内核1MB。环状拓扑有1个端口连接到CCPI2互连,2个连接到DDR4内存控制器,一左一右,分别带有4个控制器。还有一个端口连接到非相干I/O互连总线——所有I/O控制器和PCI-Express3.0控制器都连接到这里。

ThunderX2产品SKU列表

32核2.5GHz高端芯片在1,000片的售价在3,000美元以内,最大功耗为200瓦。32核主频2.2GHz的芯片将成为销售的主流高端芯片,功耗为180瓦,售价为1,795美元。运行速度为1.6GHz的低端16核芯片的功耗为75瓦,售价为800美元。

总体而言,时钟速度更低、内核数更少的低端SKU设计用于存储工作负载,而高端SKU面向运行行业应用、为广泛企业提供容量服务的云服务提供商,以及最高端HPC公司。中端产品面比较适用于2级云服务提供商以及期待更广泛解决方案并要求在成本、散热和性能之间实现完美平衡的HPC企业。

*英文原文请访问“阅读原文”链接

近期文章回顾

1.XPliant可编程交换芯片

2.XPlilant满足不断演进的技术需求

3.Cavium FastLinQ for Microsoft Azure Stack 最佳实践

4.使用Cavium FastLinQ 25GbE通过iWARP加速Live Migration

5.  最新Cavium XPliant哈希增强功能简介

6. HPC将迎来处理器变革新时代

7. OCTEON III多核SoC助力TP-LINK千元级企业路由解决方案

8. NVMe over Fabrics,PCIe链路之外的更优选择?

9. S2D软件定义存储与SMB网络

10.Docker容器技术及Docker在Cavium ThunderX ARM服务器上的最佳实践

11.阿里云神龙ARM64云服务上线啦!双路96个core,欢迎大家申请试用!

12.vSAN软件定义存储与高速以太网特性 (25G/100G以及RDMA)

13.2018 MWC - Cavium主要发布及展示

14.2018 OCP Summit - Cavium公司主要发布及展示

15.浅析智能I/O适配器

16.Arm服务器迎来HPC新契机



【声明】内容源于网络
0
0
Marvell
内容 495
粉丝 0
Marvell
总阅读427
粉丝0
内容495