最新一代Arm处理器ThunderX2技术系列(一)：核心技术概览- 大数跨境

首页

最新一代Arm处理器ThunderX2技术系列(一)：核心技术概览

Marvell

2018-05-18

导读：日前，Cavium公司发布了Cavium第2代Arm v8-A SoC处理器ThunderX2®。受到了业界以及生态合作伙伴的广泛关注。本文将主要介绍ThunderX2®芯片的核心技术细节，帮助您全

日前，Cavium公司发布了第2代Arm v8处理器ThunderX2，受到了业界以及生态合作伙伴的广泛关注。本文将主要介绍ThunderX2芯片的核心技术细节，帮助您全面了解最新一代Arm处理器。

最新一代ThunderX2芯片核心技术

ThunderX2将Cavium第2代Armv8-A定制内核(可交付与最高端传统服务器CPU不相上下的内核和插槽级性能)与最出色的内存带宽、内存容量及IO配置相结合，极大地提高了计算吞吐量，更加适用于超大规模和HPC工作负载。

ThunderX2系统框图：

ThunderX2具备32个内核，采用了定制设计，并利用乱序执行和同步多线程(SMT)来提高性能。这些内核基于Arm v8.1规范进行设计，使用台积电16nm制程，主频支持高达2.5GHz。

ThunderX2内核都支持睿频加速(turboboosting)技术，睿频加速模式有两种：一种是只有一个内核运行，另一种是所有内核都运行；只有一个内核时的峰值速度为2.96GHz。

ThunderX2芯片支持SMT模式，每个内核运行1、2或4个线程；两线程SMT可以将吞吐量提高大约20%，而四线程SMT可以将吞吐量提高大约30%。类似英特尔Xeon处理器上运行两线程HyperThreading以及IBM在Power8和Power9芯片上运行四线程SMT。

ThunderX2内核可以支持2个128位NEON浮点单元，因此每个内核在每个时钟周期内可以完成256位浮点运算。这相当于“Haswell”和“Broadwell” Xeon E5内核中每个AVX2运算单元(math unit)处理能力的一半——这些内核可以在每个时钟周期内完成32次单精度或16次双精度浮点运算。英特尔将Skylake Xeon处理器迁移到了AVX-512。这些处理器为512位，可以在每个时钟周期支持双倍的运算，即64次单精度或32次双精度浮点运算。

ThunderX2芯片每插槽具备8个DDR4内存控制器，每内存控制器双DIMM，每插槽共16个DIMM。双插槽配置中提供最高4Tb的内存，比Xeon Skylake铂金版CPU高33%的内存带宽和内存容量。

ThunderX2在内存中提供大量可靠性特性，使它达到服务器级性能水平，包括1位和2位纠错码、内存地址奇偶校验保护、内存巡检功能(demand and patrol scrubbing)、故障DIMM识别和有助于防止数据中毒(data poisoning)攻击的错误隔离(error containment)等。

ThunderX2芯片配置Cavium Coherent Processor Interconnect(CCPI2)的第2代NUMA芯片组；该芯片组以600Gb/sec的速度运行，目前可以扩展到双插槽及四插槽。CCPI2互连使用双向以25Gb/sec的速度运行的24 SerDes，在功能上类似于Nvidia公司"Pascal"和"Volta"GPU加速器上的NVLink端口、IBM公司Power9芯片上的NVLink接口以及Power9芯片上的"Bluelink"OpenCAPI端口。

在I/O配置方面，ThunderX2芯片具备14个PCI-Express 3.0控制器，支持x1、x4、x8和x16，可以在插槽中提供最多56个I/O通道。SoC同时配置SATA v3外围控制器、USB3外围控制器和各种通用I/O端口并嵌入了Trust Zone加密协处理器和电源管理控制器，因此不需要额外的芯片组就可以在单插槽或双插槽配置中使用这些性能(而Xeon芯片与此不同)。该芯片安装在LGA插槽中，这是传统服务器生产商的首选做法。

ThunderX2芯片设计内部架构

ThunderX2芯片内部架构图：

ThunderX2芯片实现了全面虚拟化，可支持Arm公司SMMUv3内存管理和GICv3通用I/O管理规范。

ThunderX2芯片设计的核心是“环状互连结构”，此结构可以在完全无阻塞的Fabric架构中提供6Tb/sec的总带宽。这意味着任何内核都可以访问任何其它内核中的任何信息，而且任何内核都可以访问任何内存控制器并进入主内存，而且不会造成双向环路的过量使用(这与英特尔在利用3种不同Skylake Xeon芯片迁移到网状网络之前过去几代Xeon中所采用的方法非常相似)。

ThunderX2芯片每个内核提供32KB的L1数据缓存和32KB的L1指令缓存，以及256KB的L2缓存。内核分为4组，每一组作为一个端口在该相关环状互连拓扑中运行，接入环状拓扑中8个2MB的L3缓存中的2个切片(slice)，因此每组4个内核共4 MB的缓存。在分别包含4个内核的8个内核组中，总共有32MB的分布式和共享L3缓存，即每个内核1MB。环状拓扑有1个端口连接到CCPI2互连，2个连接到DDR4内存控制器，一左一右，分别带有4个控制器。还有一个端口连接到非相干I/O互连总线——所有I/O控制器和PCI-Express3.0控制器都连接到这里。

ThunderX2产品SKU列表