大数跨境
0
0

专题丨算力中心云服务架构与关键技术研究

专题丨算力中心云服务架构与关键技术研究 信息通信技术与政策
2025-04-01
1
导读:赵栖平,丁飞,王诗怡,王瑞,吴迪,刘志帅
※  信息社会政策探究的思想库  ※
※  信息通信技术前沿的风向标  ※


作者简介


赵栖平

南京邮电大学智慧物联网应用技术研究院双创导师,中移(苏州)软件技术有限公司解决方案经理,从事移动云行业解决方案与业务运营等领域相关研究工作。

丁飞

通信作者。南京邮电大学现代邮政学院副院长,智慧物联网应用技术研究院副院长,教授,长期从事群智感知、智能计算与网络等领域相关研究工作。

王诗怡

南京邮电大学电子信息专业硕士研究生在读,主要从事多智能体系统和智能计算等领域相关研究工作。

王瑞

南京邮电大学电子信息专业硕士研究生在读,主要从事智能计算与网络等领域相关研究工作。

吴迪

南京邮电大学电子信息专业硕士研究生在读,主要从事算力网络和智能计算等领域相关研究工作。

刘志帅

中移(苏州)软件技术有限公司方案经理,长期从事移动云业务运营与教育行业方案创新等领域相关研究工作。


论文引用格式:

赵栖平, 丁飞, 王诗怡, 等. 算力中心云服务架构与关键技术研究*[J]. 信息通信技术与政策, 2025, 51(2): 30-39.


算力中心云服务架构与关键技术研究*


赵栖平1,2  丁飞1  王诗怡1  王瑞1  吴迪1  刘志帅2


1.南京邮电大学通信与网络技术国家工程研究中心,南京 210003

2.中移(苏州)软件技术有限公司,苏州 215163)


摘要:算力中心包含大规模的服务器、存储设备等硬件设施,为处理复杂的计算任务提供了统一的运算平台。如何设计并实现兼容通用算力、超级算力和智能算力的算力中心云架构是当前研究的一个热点方向。重点分析了教育云驱动的科研范式发展与演进趋势,以及不同代表性学科对算力需求的分析,同时给出业界在算力网络、超算中心、智算平台以及数据治理方面的研究进展。在此基础上,提出一种算力中心云总体网络架构,阐述了该架构的基本结构、安全防护以及开放服务设计,并给出跨域场景下算力并网的典型对接方案。该架构能够满足科学计算在异构算力纳管、数据模型并发训练、分布式推理、高性能计算机仿真科研应用服务等多场景的需求。基于Spine-Leaf两层设备的扁平化网络设计,整合通用算力、超级算力、智能算力等平台能力,以能够形成异构融合、高性能计算和存储、能力开放的新型云服务网络架构。

关键词:算力中心云;云原生;高性能计算;算力并网;算力调度


0  引言


目前,智能算力的需求正经历显著增长,高性能计算集群已成为大模型训练的标配,主要体现在模型参数量的指数级跃升以及数据资源的海量化处理。以ChatGPT、DeepSeek为代表的多模态人工智能(Artificial Intelligence,AI)大模型的出现,是人工智能向通用智能迈进的重要里程碑。2018年至2024年期间,美国OpenAI公司相继推出了GPT-3.5、GPT-4以及Sora等大模型,参数规模超万亿级别,且其训练所依赖的数据量达太字节(TB)级别,应用场景涵盖了文本、图像、视频等多模态的计算任务。2024年12月,中国“深度求索”大模型公司推出的DeepSeek-V3版本,仅需要极低的训练成本却能实现与GPT-4模型相媲美的性能。


全球算力产业正经历着深刻的变革,构建能够支持万节点资源快速部署(分钟级)、实现异构计算能力智能调配、保证训练中断后的无缝恢复、执行跨域分布式推理、实现模型标准化转换以及智能化服务监控等核心功能的智能计算平台,已成为业界发展的迫切需求与战略导向。


1  高校算力需求分析


高校对超级计算和智能计算的需求非常急迫[1]。推动教育算力新基建建设,是实现教育数字化转型的重要牵引[2]。教育部等部门提出要形成结构优化、集约高效、安全可靠的教育新型基础设施体系,并通过迭代升级、更新完善和持续建设,实现长期、全面的发展[3]。同时加快高校数字化转型和智能升级,实现通用数据中心、超算中心、智能计算中心、边缘数据中心等合理梯次布局[4]。2023年10月,教育部等六部门联合发布《算力基础设施高质量发展行动计划》[5],鼓励科研院所根据需求进行教育云资源建设,支撑面向重大项目或课题的开发与创新,加速搭建算力实践实训平台。


教育云驱动的科研范式发展与演进趋势如图1所示。在云计算技术的整体发展推动下,教育云发展分为了3个典型发展阶段。第一是资源云化,即云原生与容器技术等基础信息化技术在教育行业广泛应用;第二是数据云化,即通过数据采集、数据汇聚、数据挖掘,实现数据对业务的赋能,全面开启智能化时代;第三是业务云化,即以“5G+云网融合”的统一资源平台为底座,算力需求快速部署、快速迭代,智算、超算需求呈现突出趋势。

图1   教育云驱动的科研范式发展与演进趋势


当前智能计算在通信工程、交通科学、控制科学、管理科学、生命科学等学科正发挥着越来越重要的作用,表1为不同学科对算力需求的分析示例。教育云提供的高性能计算与存储能够有力支撑科研人员运行高精度、多尺度的建模与仿真,数据训练与推理等,促进各领域的科技创新与智能化创新。


表1   不同代表性学科对算力需求的分析

高校作为学术发展的前沿阵地,高性能计算的应用能够对学科建设和发展起到良好的推动作用。因此,高校进行算力中心云的建设具有非常重要的意义。周旭等[6]给出了一种融合边缘计算的新型科研云服务架构,阐述了该架构的基本功能,并给出了相关典型应用场景与服务能力。杨庆涛等[7]提出了一种面向医科大学的超算中心建设方案,硬件采用了服务器集群组件,由20个刀片节点组成,管理节点1台,配置存储服务器2台,存储容量400 T,采用转换线缆技术网络进行交换,但该中心未考虑AI平台的部署,开放后并行任务的排队现象较严重,且对于数据量大或传输速率要求较高的用户并不适用。梁润秋等[8]在以太网RoCE协议网络环境下,针对超算中心典型科研应用特征进行了统计与分析,认为超算应用的消息传递接口(Message Pass Interface,MPI)调用都有很大的优化需求,且树状网络结构难以适应科研应用的并发计算场景。马骁等[9]通过结合全国一体化大数据中心体系贵州枢纽节点建设,以“中国天眼”天文数据治理实践为研究案例,聚焦天文数据资源的复杂和多样性,将相关数据理论模型进行了数据治理实践,初步为后续科研提供了理论和实践参考。


上述研究是从边云协同、典型场景、特征挖掘、数据治理等角度进行的高校算力中心云方面的有益探索与实践,然而,算力网络的数字化转型升级过程中存在技术挑战[10]。第一是算力多样化,算力类型包括通算、超算和智算等;第二是多要素深度融合,如网络、大数据、AI等;第三是需求差异化突出,算力网络中的资源环境具有跨地域、多层级、多种类的特点,传统以堆积资源的服务模式已不适用算力网络。此外,随着训练模型规模的指数级增长,支撑AI算力的分布式集群网络规模日益扩大,规划和部署高性能、高效率的算力中心云已成为教育新基建的重要发展方向[11-12]


2  算力中心云总体网络架构


通过算力管理系统来实现算力调度是高效利用算力资源的关键。高校算力中心云的总体架构如图2所示,主要包括基建基础设施层、硬件基础设施层和软件基础设施层3部分。基建基础设施层主要指算力中心云的基础建设与保障系统,如强电系统、弱电系统、不间断电源系统、强冷系统、监控系统、消防系统和机房工程等;硬件基础设施层包括AI计算集群、高性能计算(High Performance Computing,HPC)集群、高速存储集群以及高速网络(Remote Direct Memory Access,RDMA)等;软件基础设施层基于云计算技术底座能力,打造通用算力平台、AI平台、高性能计算平台等。

图2   算力中心云总体网络架构总体架构


2.1  网络拓扑

传统的“接入-汇聚-核心”三层网络架构是一种聚合访问模型,适合南北向流量的管理,但数据路径过长易导致高时延,东西向流量场景存在核心交换机资源的浪费以及扩展性问题。并且,三层网络架构不适用计算机和存储服务器分布式部署的虚拟化算力网络。


本文提出的算力中心云采用Spine-Leaf两层设备的扁平化网络拓扑结构(见图3),算力中心云的网络配置如表2所示。Leaf层由访问交换机组成,汇聚来自服务器的流量,并直接连接到Spine层,且Spine层的每台交换机在双层网络拓扑中可互连其他Leaf交换机,算力中心云中任意两台服务器均实现Leaf-Spine-Leaf三跳可达。该网络拓扑架构缩短了服务器之间的通信路径,易于实现单云内和多云之间的扩展,而且Spine交换机的任意端口之间提供低时延和无阻塞的流量管理,从而实现从接入到云平台的敏捷服务。

图3   算力中心云的网络拓扑图

表2   算力中心的网络配置


2.2  安全部署方案

如图4所示,算力中心云的带外运维区、管理区、网络服务区、计算节点、存储节点等,通过Web应用防护墙(Web Application Firewall,WAF)层、下一代防火墙&入侵防御系统层、分布式拒绝服务攻击(Distributed Denial of Service,DDoS)防范清洗层进行安全监测与管理,同时每个资源分区均采用病毒防护、态势感知探针、日志审计、数据库审计、主机风险扫描等安全措施,从而实现立体式安全防护能力。

图4   安全部署方案示意图


(1)Web应用防护墙

实现敏感信息泄露防护,实时告警各类攻击行为及异常访问行为,并通过各类方式通知安全管理员,进而快速处理;提供详细的应用攻击日志,定位攻击源和共计地址,提供多维度统计分析,进而使安全管理员了解整个系统的安全状况。


(2)DDoS异常和超大流量清洗

Anti-DDoS层主要包括DDoS流量检测节点、DDoS流量清洗节点和管理中心等。首先,流量检测节点负责对网络流量进行统计,并与设定的防护阈值进行比较,一旦发现流量异常则通告管理中心,由管理中心下发引流策略至清洗节点实现引流清洗。其次,清洗节点根据管理中心下发的策略实现被攻击IP的流量牵引,攻击流量识别以及过滤,并按预定义的回注路由把清洗后的正常流量回注到防护网络。最后,管理中心负责DDoS设备的集中管理,主要功能包括检测设备、清洗设备集中管理,防御策略集中配置、管理及业务报表呈现,并提供开放接口和第三方网管系统实现攻击流量统计分析及清洗结果的数据对接功能。


(3)异常操作

针对弱口令攻击、C&C连接、挖矿、对外DDoS等网络攻击行为,算力中心基于深度包检测(Deep Packet Inspecting,DPI)、开放式模型库、冒泡模型等关键技术,对网络攻击流发送阻断报文,保障算力中心生产环境内的应用程序和网络基础设施安全。


3  算力中心云服务框架


3.1  通用算力平台的框架

通用算力平台主要为高校租户提供资源的自助管理服务,通过对所有专属云内资源的创建、删除、修改等全生命周期的管理,以云管平台对接校园网统一登录门户的形式,实现校内师生对于云上资源的使用需求。高校通用算力平台逻辑框架如图5所示。

图5   高校通用算力平台逻辑框架


高校用户接入:高校用户可以通过校内校园网,统一登录至算力集群的云平台门户,实现对算力中心内资源的访问和使用需求。计算存储硬件中的管理节点根据要求承担管理、登录、认证、安全等各种服务,SDN节点和存储节点为平台提供网络控制和云主机备份等服务。


超算、智算集群:作为底层算力资源由统一云门户进行运维监控和资源管理。


统一云管平台:主要为租户提供算力的统一入口,实现对算力中心全量资源的实时总览和运维监控,通过在云服务产品控制台实现中心资源的自助管理服务,包括资源的创建、删除、修改等全生命周期的管理,以及负责算力中心的运维任务。


3.2  超算集群平台框架

超算集群平台主要承载高校各学科的专业应用软件,由各个功能节点子系统组成,包括基础的网络交换系统、计算存储硬件系统,进行资源调度管理的集群管理调度系统以及在平台上进行部署的各项高性能计算应用等。高校超算集群平台逻辑框架如图6所示。

图6   高校超算集群平台逻辑框架


应用部署:高校按需部署多种科学研究应用软件,支撑用户进行高精度、多尺度的建模与设计,仿真和模拟等研究。


算力管理平台:集群监控管理提供并行作业的Web提交、文件传输、查看修改文件等操作功能;集群运维工具提供基于命令行的集群环境配置工具软件,方便集群运维管理;自动化部署工具提供常用开源HPC应用软件和开发环境的部署功能,可选择性或一键安装,快速灵活。


计算存储硬件:管理节点为系统内部所需的各种服务提供平台,为上层的应用开发和系统的运维管理提供必要的软硬件支撑;计算节点配置高性能服务器,配置高内存带宽规格满足大规模并行计算程序的高性能要求;并行文件存储模块提供高性能存储能力和海量的存储空间,如存储节点配置固态(Solid State Disk,SSD)盘作为元数据存储,配置非易失性内存主机控制器接口规范(Non-Volatile Memory Host Controller Interface Specification,Nvm)SSD高速存储盘作为数据存储等。


网络系统:设计高速网络交换方案提供在多个服务器和多个存储设备之间的通信。如采用业界高性能的RDMA高速无损网络进行组网,实现所有节点100 Gb/s全线速互联,并作为并行计算程序的计算网络以及并行存储系统的存储网络。


3.3  智算集群平台框架

智能计算集群是校级算力中心的核心基础,由各个功能节点子系统组成,包括基础的网络交换系统、计算存储硬件系统,实现一站式AI训练推理,提供基础算法框架和研发工具的AI平台调度系统,以及在平台上进行部署的各项模型开发应用和各类开发框架等。高校智算集群平台逻辑框架如图7所示。

图7   高校智算集群平台逻辑框架


应用部署:高校按需部署多种AI应用和模型开发软件框架,支撑AI应用的开发。


算力管理平台:资源调度管理模块实现高性能GPU服务器集群资源管理、异构算力管理和兼顾效率与均衡的任务分配策略,支持多种异构AI芯片,提升平台性能;集成开发平台模块预置主流AI算法框架、Jupyter、VSCode等集成开发工具,覆盖主流算法框架,方便校内用户快速使用;自动可视化建模提供低门槛、零代码的建模工具,沉淀行业典型场景预置模型,提供结构化数据一站式建模服务,降低AI技术开发门槛。


计算存储硬件:管理节点通过部署集群管理模块,负责资源管理与资源调度服务;计算节点根据场景要求,配置搭载英伟达GPU卡的服务器或国产昇腾、曙光、寒武纪等加速卡的异构算力资源,满足训练和推理的算力需求;并行文件存储模块负责提供高性能存储能力和海量的存储空间,如配置固态SSD盘作为元数据存储、配置Nvm SSD高速存储盘作为数据存储等。


网络系统:和智算集群平台类似,设计高速网络交换方案提供在多个服务器和多个存储设备之间的通信。


4  算力中心云的并网设计


算力并网是指在跨局域网或者跨广域网接入各类社会算力基础设施,通过统一的管理软件为用户提供即开即用、按需付费的零感知算网应用服务。算力并网管理软件支持租户管理、算力调度、数据管理和账单计费等功能,让用户尽量无感知地使用多个算力资源。从当前算力中心云的跨域资源整合的逻辑架构实现角度,可以通过运营层对接、资源层对接和云原生纳管等方式实现并网建设。在设计并部署算力并网的管理软件时,网络功能虚拟化技术的研究进展提供了重要的技术支撑。从当前算力中心云的跨域资源整合的逻辑架构实现角度,可以通过运营层对接、资源层对接和云原生纳管等方式实现并网建设,如图8所示。

图8   算力并网模式示意图


(1)运营层对接

以算力中心云的运营管理平台进行统一订购与开放服务,面向其他高校和教育机构等提供算力服务。此并网方案将汇聚第三方算力资源,然后通过运营管理平台提供资源开通、订退改续、订单管理、账单等接口的规范接入。运营层对接方案适合并入社会的智算、超算和量子计算资源的合作。


(2)产品层对接

算力中心云的运营管理平台与第三方的算力平台进行对接,通过将资源管理与调度接口的统一适配后,此时可以实现产品级的算力平台的网络、存储、算力的集中管理与调度分发。产品层对接方案适合对接第三方公有云算力、国际算力等并网。


(3)云原生对接

以算力中心云的云原生平台为基础,打通与第三方的云原生容器平台接口,该并网方案适合整合第三方的小型容器平台,实现容器级的资源互通与调度。


5  未来与展望


传统的“资源云化”和“数据云化”服务无法满足业务云化驱动的科研范式的发展,本文提出一种融合通用算力、超级算力与智能算力的新型算力中心云架构,同时阐述该架构的基本结构、安全防护以及开放服务设计。最后,考虑到算力并网和调度需求,提出3种算力并网技术方案,为后续算力中心并网调度提供了相应的技术方案。


未来,可以在以下几个方面进行研究。第一,结合特定高校的算力中心云的实际需求,完成超算集群、智算集群和通算集群集成方案的设计与示范应用。第二,在软件建设中,对超算软件、智算AI软件、调度资源管理软件进行设计与实现;在网络架构设计中,充分对AI计算集群、HPC计算节点、通用计算区、高性能存储、SDN网络区、网络互联区、管理区网络架构进行设计;同时,考虑到整个算力中心的安全性,重点对WAF、DDoS和客户异常操作三类主要安全方案进行了详细的阐述。最后,考虑到算力并网和调度需求,提出3种算力并网技术方案,为后续算力中心并网调度提供了相应的技术方案。


6  结束语


本文结合某高校算力中心的实际需求,在硬件建设中详细阐述了超算集群、智算集群和通算集群集成方案。在软件建设中,对超算软件、调度资源管理软件和智算AI软件进行详细的设计。在网络架构设计中,充分对AI计算集群、HPC计算节点、通用计算区、高性能存储、SDN网络区、网络互联区、管理区网络架构进行设计。同时,考虑到整个算力中心的安全性,重点对WAF、DDoS和客户异常操作3类主要安全方案进行了详细的阐述。


考虑到算力并网和调度需求,提出3种算力并网技术方案,为后续算力中心并网调度提供了相应的技术方案。该项目率先落地高校算力并网及调度平台,建设全省教育算力资源的重要集散地和调度中心,通过实现不同厂商的异构资源池的算力动态感知与作业智能分发调度,满足各类科研用户不同的算力需求。同时也助力全省高校教科研“AI+”转型升级构建全省教育算力资源生态联盟,最大化服务省内高校教育数字化转型。


最后,基于算力中心资源打造算力资源调度生态联盟,最大化地吸聚社会资源,打造算力生态高地。积极与大模型服务厂家进行适配和应用开发,进一步为大模型的应用推广打好生态基础。


Research on cloud service architecture and key technologies of computing center


ZHAO Xiping1,2, DING Fei1, WANG Shiyi1, WANG Rui1, WU Di1, LIU Zhishuai2


1. National Local Joint Engineering Research Center for Communication and Network Technology, Nanjing University of Posts and Telecommunications, Nanjing 210003, China

2. China Mobile (Suzhou) Software Technology Co., Ltd., Suzhou 215163, China)


Abstract: The computing power center includes large-scale hardware facilities such as servers and storage devices, providing a unified computing platform for processing complex computing tasks. How to design and implement a computing power center cloud architecture compatible with universal computing power, super computing power and intelligent computing power is a hot research direction. This paper focuses on analyzing the development and evolution trend of the research paradigm driven by education cloud, as well as the demand for computing power of different representative disciplines. And this paper gives the research progress of the industry in computing power network, supercomputing center, smart computing platform and data governance. On this basis, this paper proposes an overall network architecture of computing power center cloud, describes the basic structure, security protection and open service design of this architecture, and gives a typical docking scheme of computing power connected to the grid in cross-domain scenarios. The architecture can meet the needs of scientific computing in heterogeneous computing force management, data model concurrent training, distributed reasoning, high-performance computer simulation, and scientific research application services. Based on the flat network design of Spine-Leaf two-tier devices, integrating the platform capabilities of general computing power, super computing power, intelligent computing power and other platform capabilities, it will be able to form a new cloud service network architecture with heterogeneous integration, high-performance computing and storage, and open capabilities.

Keywords: computing power centric cloud; cloud-native; high performance computing; grid connected computing power; computing power scheduling



本文刊于《信息通信技术与政策》2025年 第2期



主办:中国信息通信研究院


《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“ 信息通信技术前沿的风向标,信息社会政策探究的思想库 ”,聚焦信息通信领域技术趋势、公共政策、 国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。


期刊荣誉与收录情况

AMI(2022版)A刊扩展期刊

RCCSE中国核心学术期刊

入选中国科协信息通信领域高质量科技期刊分级目录




《信息通信技术与政策》投稿指南


为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊官方网站(http://ictp.caict.ac.cn)已正式投入运行,欢迎投稿!





   推荐阅读  


专题丨我国算力产业拓展新兴市场机遇与策略分析
专题丨人工智能时代高质量算力发展趋势洞察
专题丨人工智能原生网络发展趋势研究
专题丨算力电力协同发展内涵与关键举措研究
导读:专题导读:算力网络



“在看”我吗?

【声明】内容源于网络
0
0
信息通信技术与政策
工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”。
内容 986
粉丝 0
信息通信技术与政策 工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”。
总阅读751
粉丝0
内容986