近日,腾讯在“造芯”路上的两家重点投资新创企业携手合作。燧原科技与云豹智能宣布达成战略合作,依托双方各自在 DPU(Data Processing Unit) 和 AI 计算领域的软硬件优势,联合开发大规模高性能 AI 算力平台。
据《问芯Voice》观察,腾讯围绕着数据中心投资了三家企业:燧原科技、云豹智能、云合智网。
2018 年,腾讯先投资燧原科技,之后更连续加码投资,日前燧原已经发布从 AI 训练到推理的完整产品线并迭代到第二代,产品已经进入国家重点实验室、互联网和智慧城市等领域。
2020 年深圳云豹智能成立,专注云计算/数据中心数据处理器芯片 DPU 和解决方案,同样获得腾讯入股。云豹智能的创始人是原 RMI 公司 (后被 Netlogic / Broadcom 收购) 共同创办人萧启阳,主要核心团队来自博通、英特尔、Arm、华为海思、阿里巴巴等。
云合智网则是创立于 2020 年 11 月,致力于研发高性能可编程以太网交换机芯片和解决方案,打造符合云原生生态的底层硬件和定制化软件。
云和智网的创始人主要来自硅谷网络和芯片公司高管,研发团队成员来自英特尔、微软、博通、思科、华为海思、中兴等,旨在逐步推动国产高端网络芯片在全球市场的占有率和影响力。 2021 年 2 月,云合智网完成天使轮融资中,也看到腾讯的身影。
日前,云豹智能与燧原科技已经共同宣布携手合作发力云端数据中心,以基于云豹的云霄 DPU 和燧原的云燧 T20 推出 DataDirectPath Storage 技术,提供 AI 训练储存访问时的更佳解决方案。
DataDirectPath 技术是用于高性能分布式数据通信,基于云豹智能 DPU 的高灵活性和高性能的特点,实现与云燧 T20 之间,以及与存储之间的高性能直接通信,可以有效提升 AI 训练效率,同时也降低训练成本。
DataDirectPath包括:DataDirectPath RDMA和DataDirectPath Storage。其中,DataDirectPath RDMA 用于 AI 加速芯片之间的数据通信,而 DataDirectPath Storage 用于 AI 加速芯片与存储器之间的高速数据读写。
相对于一些 GPU 厂商推出的私有解决方案,DataDirectPath 具有开放性、高兼容性和高灵活性等特点。
在传统解决方案中,云燧 T20 访问存储时,需要将数据先搬移到系统内存,再由系统内存搬移到目标设备。
在 DataDirectPath Storage 解决方案中,基于 DataDirectPath Storage 技术,云燧 T20 通过 DPU 直接获得数据,从而绕过系统内存和 CPU,让数据访问速度更快,访问延迟更短,系统开销更小。
DataDirectPath Storage 不仅支持数据通道的 Bypass CPU,也支持控制通道的 Bypass CPU,让控制路径也更高效,大大降低 CPU 的开销。
根据艾瑞预测,2020 年中国人工智能基础设施市场规模为 497 亿元,为人工智能产业总规模的 33%,到 2025 年中国人工智能基础设施市场规模将达到 2475 亿元。
算力作为人工智能产业发展的三大要素之一,AI 芯片是其载体。
AI 芯片作为人工智能产业的关键硬件,是AI加速服务器中用于 AI 训练与推理的核心计算引擎,被广泛应用于人工智能、云计算、数据中心、边缘计算、移动终端等领域。
艾瑞统计与预测,2020 年中国 AI 芯片市场规模为 197 亿元,到 2025 年该市场规模将达到 1385 亿元,2021~2025 年的相关 CAGR 达 47%。
其中,在数据中心领域,DPU 是一个新方向。英伟达 CEO 黄仁勋曾指出,数据中心已经成为全新的运算单位,且 DPU 是未来继 CPU、GPU 之后的另一个重要计算支柱。因此,CPU、GPU、DPU 三大技术成为数据中心的计算单元基础,也建立起英伟达的数据中心路线图。
主要是海量数据下,需要更强大的计算能力支撑,而传统以 CPU 为中心的数据中心架构开始面临瓶颈,DPU 的加入很好地释放了 CPU、GPU 的资源,担任“分忧解劳”的角色。
而对于很多企业来说,独立建立自己的 AI 硬件,无论是一次性投入或后续运维的成本都非常高。如果能将 AI 算力云化,以按需分配的方式提供AI算力,将可达到提高效能与降低成本两大目标。因此,燧原认为,AI 算力云化是未来 AI 发展的趋势之一。
AI 算力云化不仅需要高性能的 AI 计算能力,也需要高性能的数据处理能力,包括 AI 芯片之间的数据通信、AI 芯片获取存储数据等。随着 AI 数据爆发式增长、模型迭代速度更快、模型规模越来越大,对数据处理能力的要求也越来越高。
AI 芯片厂商、GPU 厂商、AI 算法开发商都在不断探索硬件和软件的解决方案。
目前,主流的 GPU 或 AI 芯片厂商提供自己私有的解决方案,比如 NVIDIA 的NVLink、GPUDirect 和相应 NCCL 软件。燧原与云豹智能合作推出的 DataDirectPath Storage 解决方案展现了以下优势:
高性能、低延迟、低开销:DataDirectPath Storage 同时支持数据通道和控制通道 Bypass CPU,降低 CPU 开销、提高 AI 加速芯片访问性能并降低通信时延,从而帮助用户构建更大规模、更高性价比和能效比的 AI 计算平台。
高兼容性:用户端文件系统与后端实现解耦,通过 DPU 兼容多种存储系统和协议。
互联方案更灵活:DPU 和 AI 加速芯片通信支持多种协议,包括 Virtio、RDMA 和NVMe 等,从而支持更灵活的互联方案。
燧原科技创始人兼 COO 张亚林表示:“数据中心和云计算是国家新基建的算力基础设施,企业数字化转型的重要保障。在智能数据中心的核心业务中,海量数据和计算能力已成为核心关键。基于云豹智能和燧原科技在数据处理和算力产品的优势,将进一步促进数据中心的变革。通过创新性的 DataDirectPath 技术实现 AI 处理器之间以及 AI 处理器与存储之间的直接通信,对于提升 AI 计算规模和训练效率至关重要。”
云豹智能创始人兼 CEO 萧启阳表示:“在数据中心领域中,DPU 正推动着计算基础架构的变革,以提供更高效的数据处理和计算解决方案。DPU 与 AI 加速设备更高效地互通互动,推动 AI 应用的发展,让 AI 计算更高效、更节能,这是我们推出 DataDirectPath 的出发点,相信 DataDirectPath 相关的技术必将为数据中心计算资源池化提供重要的基础。”

