大数跨境
0
0

常投格物·产研说(第26期)| AI上游硬件和系统梳理——智算中心

常投格物·产研说(第26期)| AI上游硬件和系统梳理——智算中心 常州人才科创集团
2024-07-26
2
导读:智算中心是AI时代最主要的计算力生产中心和供应中心,是促进AI产业化和产业AI化的重要引擎。目前,中国正处于智算中心建设的热潮之中,数字经济未来可期。

阅读本文默认已阅读并同意文末免责及版权声明。

智算中心正在全国各地遍地开花。智算中心不同于超算中心,是AI时代最主要的计算力生产中心和供应中心,它以融合架构计算系统为平台,以数据为资源,能够以强大算力驱动AI模型对数据进行深度加工,源源不断产生各种智慧计算服务,并通过网络以云服务形式供应给组织及个人。本文对智算中心的行业概况,智算中心建设中的核心要件、核心评价指标,以及国内智算中心的建设情况进行梳理。



PART 01

智算中心行业概况


智算中心是符合中国当前社会经济发展阶段和转型需求,促进AI产业化和产业AI化的重要引擎。智算中心将在推动国家AI战略实施,赋能实体经济实现新旧动能转换,提升社会治理水平,促进AI科研和工程技术人才培养等领域发挥重大支撑和推动作用。



概念

1、定义

智算中心是基于最新AI理论,采用领先的AI计算架构,提供AI应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,通过算力的生产、聚合、调度和释放,高效支撑数据开放共享、智能生态建设、产业创新聚集,有力促进AI产业化、产业AI化及政府治理智能化。智算中心涵盖设施、硬件、软件,并可提供从底层算力到顶层应用使能的全栈能力。

2、对比分析

计算在发展过程中从最初的数值计算逐渐演变为科学计算、关键计算和智慧计算,每种计算都有相应的算力中心去支撑。中国工程院院士陈左宁曾形象地比喻,使用超级计算做AI计算是“大马拉小车”。超级计算机虽然“十项全能”,但毕竟不是为AI量身打造,为了便宜行事,智能计算机才由此兴起。

从概念上来看,与当前数量众多云数据中心相比,智算中心的服务范围更小众,主要是AI应用场景的企业,而非大众企业。与超算中心相比,智算中心用户普遍特征是——对算力有需求、对计算精度要求不高、难以负担高昂的算力成本。相比超算中心提供给航天、国防所用的科学领域高精度算力,智算中心所提供的,是一种更低精度的算力,主要是用于处理影像、图片、语音等各种AI的训练和推理,即帮助完成人脸识别、图像识别、语音识别等应用场景。

具体来看,在建设目的、技术标准、具体功能、应用领域和“投-建-运”模式、投资成本等方面,与超算中心、云数据中心相比,智算中心都有所差别,对比如表1所示。

表1:智算中心与超算中心、云数据中心对比表

(资料来源:国家信息中心:智能计算中心规划建设指南,人民网:智算中心是智慧时代的新基建,西南证券)


总体架构

整个架构可以分为四大部分,分别对应的是基础、支撑、功能和目标。

图1:智算中心总体架构图(资料来源:智能计算中心创新发展指南)

基础部分是最新的AI理论和领先的AI计算架构,这是智算中心区别于其它数据中心的核心点。

支撑部分是智算中心作业环节,智算中心通过作业环节实现了算力的生产、聚合、调度和释放,是区别于其它数据中心的具体体现。

功能部分是四大平台和三大服务,四大平台分别是算力生产供应平台、数据开放共享平台、智能生态建设平台和产业创新聚集平台;三大服务分别是数据服务、算力服务和算法服务。

目标部分是促进AI产业化、产业AI化及政府治理智能化。



产业链梳理

目前,我国智算产业链已经初步形成,涵盖由IT基础设施(芯片、软件、硬件供应商)、土地基础设施(土建及施工承包商、供配电系统供应商等)构成的上游产业,由云商、智算服务供应商、互联网数据中心(简称IDC)服务商等构成的中游智算中心运营产业,以及由互联网、交通、金融、工业等行业的用户构成的下游应用产业。

图2:智算中心产业链(资料来源:智能计算中心创新发展指南)


PART 02

核心要件及评价指标


核心要件

在智算中心总体架构的基础上,聚焦智算中心建设与应用中涉及的关键技术,进一步提出智算中心建设架构(图3)。智算中心建设架构有四大趋势,分别是算力基建化、算法基建化、服务智件化、设施绿色化,“四化”相互支撑、相互协调,共同构建起智算中心高效运行体系。

图3:智算中心建设架构

(资料来源:智能计算中心创新发展指南)

算力技术与算法模型是智算中心发展中的关键核心技术,算力技术以AI芯片、AI服务器、AI集群为载体,智算中心往往通过硬件重构实现资源池化,而当前的算法模型发展趋势以AI大模型为代表。在此基础上,通过智算中心操作系统作为智算中心的“神经中枢”对算力资源池进行高效管理和智能调度,使智算中心更好地对外提供算力、数据和算法等服务,支撑各类智慧应用场景落地。而软件生态则是智算中心“好用、用好”的关键支撑。

1、算力技术

智算中心的硬件就像是跑车的引擎,不仅要强大,还要智能。这种数据中心需要的不仅是速度,还有处理大规模、复杂数据的能力。智算中心所需的AI集群采用模块化方法构建,可以实现大规模的算力扩展。AI服务器是AI集群的基本算力单元,是智算中心的主要算力硬件,主要采用CPU+AI加速芯片的“异构计算”架构。

图4:智算中心算力集群构建

(资料来源:网络)

AI服务器和传统通用服务器最大的区别,在于算力芯片的不同。传统通用服务器以CPU作为主要芯片,有部分配置了1-2块GPU(图形处理单元)卡,以完成传统图形处理任务为主。智算服务器,为了实现强大的并行计算能力,更好地完成AI算法所涉及的大量简单矩阵运算任务,在配置了CPU的基础上,配置了更多的GPU、NPU(神经网络处理单元)、TPU(张量处理单元)等计算芯片(4块或8块),以这些AI芯片输出的算力为主。GPU、NPU、TPU的内核数量多,擅长并行计算。这种“CPU+GPU”、“CPU+NPU”的异构架构,能够充分发挥不同算力芯片在性能、成本和能耗上的优势。在实际使用中,GPU、NPU、TPU会做成板卡的形态,插入到智算服务器的插槽中。等服务器上电启动后,再根据调度执行计算任务。

图5:安装了8块GPU卡的训推一体服务器

(资料来源:摩尔线程官网)

除了芯片不同之外,为了充分发挥性能以及保障稳定运行,AI服务器在架构、存储、散热、拓扑等方面也进行了强化设计。例如,智算服务器的DRAM容量通常是普通服务器的8倍,NAND容量是普通服务器的3倍。甚至它的PCB电路板层数也明显多于传统服务器。

2、算法模型

超大规模智能模型,简称大模型,是近年兴起的一种新的AI计算范式。和传统AI模型相比,大模型的训练使用了更多的数据,具有更好的泛化性,可以应用到更广泛的下游任务中。按照应用场景划分,AI大模型依序发展出语言大模型、视觉大模型和多模态大模型等。

当前语言大模型的单体模型参数已经达到千亿级别,训练数据集规模也达到了TB级别,训练所需计算资源超过1000Petaflop/s-day(PD),已经广泛应用于个人知识管理、舆情检测、商业报告生成、金融反欺诈、公文写作等场景。

在语言大模型大获成功之后,相关技术和方法也被引入计算机视觉领域,通过构建更大的预训练模型,使其可以适用于目标检测、语义分割、异常检测等广泛的视觉任务。在算法架构上,视觉大模型采用以Transformer架构为主体的神经网络架构和自监督的训练方法以及十亿级的无标注图片数据进行训练。

随着大模型技术在语言、视觉等多个领域的应用,融合多个模态的多模态大模型也逐渐成为业界关注的重点。基于多模态大模型的以文生图,文生视频技术也迅速发展,代表性模型有DALLE-2、Stable Difusion 3 和Sora等。由于多模态大模型的快速发展,AI内容生成(AI Generated Content, AIGC)已成为下一个AI发展的重点领域。

3、智算中心操作系统

智算中心操作系统(智算OS),是以智算服务为对象,对智算中心基础设施资源池进行高效管理和智能调度的产品方案,由基础设施层、平台服务层、业务系统层构成。

基础设施层主要实现将异构算力、数据存储、框架模型等转化为有效的算力与服务资源。平台服务层主要提供AI训练与推理服务、数据治理服务、运营运维服务等,并通过智算OS实现自动化、智能化。业务系统层是面向用户端的统一服务入口,向下整合各层级核心功能,为用户提供多元化、高质量的智算服务,满足生产中不同阶段、不同场景的智算需求。

4、软件生态

基于业界主流、开源、开放的软件生态建设智算中心,是智算中心能够满足前沿AI计算需求、提升AI创新和生产效率、丰富行业AI应用、促进AI产业快速发展的主要前提。

深度学习的加速计算始于GPU,构建于GPU之上的CUDA软件栈为深度学习的算法开发提供了极大的便利。深度学习框架是当前主要的AI算法开发工具,其中TensorFlow和PyTorch的使用较为广泛。在深度学习框架之上,为了适应计算机视觉任务、自然语言大模型等特定场景的应用开发需求,业界构建了一系列的开源开发库,比如面向目标检测任务的mmdetection、面向大模型训练任务的Megatron-LM、DeepSpeed,以及面向自监督学习的VISSL等,这些软件库进一步简化了模型训练和应用开发的难度,已成为当前AI计算的重要软件底座。


核心评价指标

《计算中心有效算力评测体系白皮书》(以下简称“白皮书”)指出,高质量的计算中心建设是支撑数字经济高质量发展的重要手段,其算力基础设施的算力总量、算力效率是新基建的主要抓手,但与此同时,计算中心的高速增长也带来了一系列能源消耗问题。

因此,高质量建设计算中心,可以通过“增效”“节能”两手抓以应对能源消耗问题提升算力质量。

1、增效

传统上,计算中心常用计算芯片的规格算力评价算力水平,常用的计量单位是每秒执行的浮点数运算次数(FLops),比如现在APUS郑州智算中心年内算力已经达到500PFlops(每秒50亿亿次浮点运算)以上;中国移动智算中心(武汉)已建成服务能力达1.5EFlops(每秒150亿亿次浮点运算),到今年底将扩容至6.8EFlops(每秒680亿亿次)。

图6:有效算力指标公式

(资料来源:计算中心有效算力评测体系白皮书)

白皮书提出了算力度量的一种新指标——有效算力(CUE),通过评测真实业务性能表现,来衡量算力基础设施对业务的支撑效果,也就是业务实际可获得的算力水平。背后的原因是:由于计算中心架构和算力选择的不同,在相同规格算力情况下,可能出现业务性能表现差异较大的情况。相比规格算力更偏向于统计意义上算力的数量,有效算力更强调算力的质量。其测量方法参考T/CESA 1169-2021《信息技术 AI服务器系统性能测试规范》。

此外,参考《黑龙江省大数据中心算力评估规范》也会采用存储容量(TB)每秒读写次数(Input/Output Operations Per Second,IOPS)来衡量存储能力,以及网络带宽速度来衡量智算中心网络的性能,单位为Gbit/s,即每秒传输的比特位数。

2、节能

追踪数据中心的碳足迹、探索低碳数据中心的长远发展路径,对逐步实现数据中心碳中和的目标具有重要作用。

图7:华南数谷智算中心冷冻/冷却水系统设备

(资料来源:时代周报)

对于大型算力中心来说,IT设备每消耗1度电,就会产生额外的电用于散热、供配电系统本身的消耗、照明等其他用途,衡量能源高效利用水平的一个重要指标是“能源利用效率”(PUE),也就是连续一年内数据中心总耗电与数据中心IT设备耗电的比值。早在2019年,工业和信息化部、国家机关事务管理局等部门联合发布了《关于加强绿色数据中心建设的指导意见》,引导大型和超大型数据中心设计PUE不高于1.4;2020年12月,工业和信息化部、国家发展和改革委员会等部门又在《关于加快构建全国一体化大数据中心协同创新体系的指导意见》中,进一步将PUE目标降到了1.3以下。

其次,“可再生能源利用水平”指标是计算连续一年内可证明的可再生能源电力应用量与连续一年数据中心总电能消耗实际测量数据的比值。“水资源利用水平”“绿色运维水平”“绿色采购水平”等绿色低碳发展类指标也是智算中心绿色发展中至关重要的指标。


PART 03

国内智算中心建设情况

在工信部、发改委等部门发布的政策指导和市场需求引导下,2023年起国内智算中心的建设进入了高速增长期。根据中国IDC圈不完全统计,截至2024年5月份,国内已经建成和在建的智算中心超过250个,分布在全国超过30个城市,涵盖了从东部沿海到西部内陆的多个省份。2024年5月16日,常州首个智算中心——中国移动长三角(常州)智算中心发布会在常州钟楼区举行,其落地为常州“万亿之城再出发”进一步夯实数字底座。

从目前情况来看,政府和运营商是智算中心建设的主要推手,部分互联网企业也加入其中,持续加码算力建设。


全国智算中心分布情况

1、政府侧智算中心

2023年以来,政府智算中心建设的规模与节奏均有显著提升,各省市地方政府均在积极推进智算中心建设。

图8:2020-2024年部分政府智算中心建设情况

(资料来源:中金公司研究部)

可见,2020年-2023年间已投运政府智算中心单期算力建设规模一般在500P以下,而随着AI带动算力需求的提升,单个智算中心的体量提升,2023年下半年之后建设与投运的智算中心出现较多1000P以上的算力规模。

2、运营商智算中心

三大运营商积极发展算力建设、相继开启智算中心的建设布局,运营商推动建设的智算中心具有一定公共服务属性,是政府主导的算力基础设施建设的良好补充。

图9:三大电信运营商智算中心建设情况

(资料来源:中金公司研究部)

为响应“东数西算”的政策,运营商智算中心的建设规划逐步向中西部地区倾斜,并且中西部地区新建智算中心均规模较大,2024年启用的中国移动克拉玛依呼和浩特智算中心,规划算力规模分别达到2023PFLOPS及6.7EFLOPS,2024年投入运营的中国电信中部智算中心算力达到5000PFLLPS。

3、科技厂商智算中心

以百度、阿里、腾讯为代表的互联网企业也积极推进智算中心布局,以推动自身业务发展,赶上AI发展浪潮。

阿里张北超级智算中心总建设规模达12000PFLOPS, 百度与腾讯均已在全国多个地区建立了智算中心,包括广州上海北京等,字节跳动则依托于润泽科技等进行智算中心相关的IDC投资。




常州智算中心落地

图10:中国移动长三角(常州)智算中心发布仪式

(资料来源:常州移动)

2024年5月16日下午,在2024年世界电信和信息社会日前夕,中国移动长三角(常州)智算中心发布会在常州钟楼区举行,正式对外运营230P算力。该智算中心是常州移动联合华为加速优化算力基础设施布局,倾力打造出常州首个集智能算力、AI大模型、AI应用开发及运行管理平台于一体的智算中心,为常州“万亿之城再出发”进一步夯实数字底座。

图11:中国移动长三角(常州)智算中心

(资料来源:常州移动)

据悉,中国移动长三角(常州)智算中心总投资超2亿元一期运营算力规模达230P,基于昇腾AI软硬件技术打造全栈国产化平台,使智能算力云服务化。该智算中心采用DCN网络架构,支持万卡级别的超大规模集群扩展,可提供更快的大模型训练速度和30天以上的稳定训练周期,训练更加高效、稳定、可靠。

为更好地围绕市场需求打造智算服务,该智算中心引入了具备高度准确性和泛化能力的盘古大模型,可应用于自然语言处理、图像识别、语音识别等领域。同时,还支持国内外60多个开源大模型,已在政务、制造、金融、医药等领域展现出不俗的实力。该智算中心可提供“开箱即用零等待”的模型服务,也可基于强大的计算能力训练出更多细化场景的专有大模型,让企业专注于AI开发和业务创新,助力各行业进一步提升工作效率和经济效益。

为满足高热密度算力的高效率散热需求,该智算中心一期工程部署了13个30KW的液冷算力服务器机柜。相比传统的风冷散热方式,液冷散热技术散热性能更高、能耗更低,预计每年可为该智算中心节省电量约600万度,减少碳排放量4700吨。值得一提的是,在近日国家工业和信息化部公示的2023年度国家绿色数据中心名单中,该智算中心成功入选


免责及版权声明

本文信息仅为内部研究学习使用,不构成任何投资建议。任何阅读本文的投资者不应以上述信息取代其独立判断或仅根据该等信息做出决策。作者力求所载信息准确可靠,但对这些信息的准确性或完整性不作任何保证,亦不对因使用该等信息而引发或可能引发的损失承担任何责任。同时,以上内容亦受版权保护,未经我司事前书面同意,不可对此等材料的任何部分有下列侵权行为,包括但不限于修改、翻版、储存于检索系统、传送、复制、分发或以任何其它方式作商业或公共用途。



文字:周婧怡
编辑:恽馥溢
审核:徐   


【声明】内容源于网络
0
0
常州人才科创集团
常州人才科创集团坚持“政府引导、市场运作”的工作思路,聚焦“人才+科创+资本”服务模式,系统构建“科创人才招引、科创项目孵化、科创投资集聚、科创生态服务”四大功能平台,助推新兴产业人才项目落地壮大。
内容 140
粉丝 0
常州人才科创集团 常州人才科创集团坚持“政府引导、市场运作”的工作思路,聚焦“人才+科创+资本”服务模式,系统构建“科创人才招引、科创项目孵化、科创投资集聚、科创生态服务”四大功能平台,助推新兴产业人才项目落地壮大。
总阅读97
粉丝0
内容140