在DPU文章中,我们介绍了DPU的兴起是网络吞吐率超过了CPU的进步,从而从以前一个CPU对应多个网卡变成了一个DPU对应多个CPU的架构创新。今天我们介绍边缘智芯在这种新架构上的创新,以及我们的解决方案XPU:高吞吐数据交换芯片。

数据芯片引领“一机多卡”到“一芯多机”的架构变革

数据芯片的本质是构建CPU、GPU、设备互联集群
1. 边缘智芯希望解决什么问题?
在数据为中心的计算时代,存在一颗芯片专门负责处理数据相关计算。数据计算分为三大类:1)数据转发,2)数据路由,3)数据处理。其中:
数据转发:
主要负责在确定路径下的数据传输,通常称为data plane,对应网络中L2层,所有数据芯片都具备的能力
数据路由:
数据处理:
主要负责数据报文深度分析、安全加密等功能,通常需要对包进行深度分析(DPI),对应网络中L4-L7层。其中Intel的IPU将IaaS卸载到DPU/IPU中,属于业务范围,我们定位L7层应用
主要处理数据转发路径、协议处理、数据异常处理等控制业务,通常我们称为control plane,对应网络中L3层
目前Fungible和Intel的重点在数据处理部分,而Nvidia的DPU目标数据路由和轻量级数据处理。和Nvidia类似,边缘智芯解决方案的目标是处理数据转发和数据路由,将数据处理通过外接SoC或者AI模块的方式处理。所以边缘智芯的芯片更多的是一个数据路由和转发芯片,我们命名为eXchange Processing Unit XPU。或者叫DPU+。

边缘智芯的XPU是一个数据转发芯片,通过数据特征进行业务转发
2. 边缘智芯技术路线:PCIe
不同于Fungible和Nvidia的以太网技术路线,边缘智芯选择PCIe技术路线。PCIe作为电互联技术标准,在过去10年基本统一了服务器设备接口,同时PCIe技术的发展速度也非常快。在PCIe 5.0x16配置下,接口速率达到1Tbps,延迟却只有几百纳秒。

PCIe接口已经统一GPU、SSD、FPGA、Smart NIC等高速设备
类似以太网技术,边缘智芯通过增加SoC的方式增强PCIe Switch的路由能力。由于路由在PCIe Switch中发生,极大减轻了CPU的数据处理负担。

PCIe Switch本来就充当了服务器数据的通路核心,Socnoc通过SoC的方式增加起路由能力,从而减少数据路径,达到降低延迟的作用。
3. New Data Fabric
类似以太网,通过SR-IOV和MR-IOV技术PCIe技术不但可以实现设备和设备之间的通讯,还可以实现主机和主机之间的通讯,构建一个基于总线技术的New Data Fabric。在New Data Fabric上,数据可以从NIC/Smart NIC中直接注入总线,然后根据业务转发到服务器、GPU阵列、储存阵列中去。我们把这个Fabric称为Composable Fabric。关于Composable Infrastructure,我们将在未来XPU应用案例中详细介绍。
4. DPU vs IPU vs XPU
本质上DPU、IPU和XPU解决的都是一个在高吞吐数据(数据为中心)应用场景下,数据和计算(包括CPU、GPU、FPGA)的数据分配问题。
IPU侧重多个CPU(服务器)的管理,努力融合IaaS模块,降低集群管理成本,更多像是一个协处理器。类似在CPU中的大小核,变成了双路服务器中的双路大小CPU架构,当然Intel可能会采用FPGA + 小CPU + 大CPU的超异构计算模型,复杂化DPU/IPU市场。
DPU侧重数据的业务处理能力,即L4-L7层的业务处理能力,比如加密、DPI、数据加速等功能,比较纯粹,但因为引入了强大的SoC会极大的增加网卡的功耗和成本,必须在应用场景和性价比上进行平衡。
XPU侧重数据的低延迟转发和链路控制,是L2/L3的网络模型,架构极其简洁,功耗低、成本低,适用于低成本、低延迟的应用场景。未来配合SDN控制器可以构建更加复杂的网络拓扑,实现更加丰富的功能。

不同于Smart NIC,DPU、IPU、XPU都是解决多服务器互联问题(一芯多机)
5. XPU + DPU构建下一代数据中心
由于XPU更加偏向L2/L3层技术,而DPU更加偏向L4-L7技术,DPU+XPU可以构建一个完整的数据中心网络架构:其中XPU负责机柜内主机和主机、主机和设备、设备和设备之间通讯,而DPU负责机柜和机柜间通讯,或者机柜和机柜汇聚到核心交换机。这种架构不但适用于超大型数据中心,还适合边缘计算中心。

基于XPU的Data Fabric和DPU融合构建数据中心网络拓扑
数据芯片 |
类比数据中心设备 |
DPU |
防火墙、路由器、核心路由器 |
XPU |
三层交换机、二层交换机 |
DPU和XPU在数据芯片中的定位类比
6. 数据为中心的时代
最后我们认为数据为中心的时代就是集群计算的时代。传统以服务器为整机的计算架构将被分散的设备集群取代。我们将用速率定义应用场景,将计算分为10、40、100、200+Gbps的应用场景,而DPU+XPU将构成下一个数据计算时代的基石。



