大数跨境
0
0

专题丨面向异构算力网络调度的研究

专题丨面向异构算力网络调度的研究 信息通信技术与政策
2023-06-26
1
导读:张慷,桑洁丽,吴美希
※  信息社会政策探究的思想库  ※
※  信息通信技术前沿的风向标  ※


作者简介


张慷  

中国电信股份有限公司上海分公司资深经理、总师室主任,天翼云科技有限公司上海分公司副总经理,教授级高工,主要从事IP、云计算、系统集成等方面的研究工作。

桑洁丽  

中国电信股份有限公司上海分公司天翼云能力运营中心产品运营中心经理,工程师,主要从事算力调度、云网融合、多云管理等方面的研究工作。

吴美希  

中国信息通信研究院云计算与大数据研究所数据中心部副主任,工程师,主要从事数据中心相关的政策支撑、产业咨询、技术研究和标准制定等方面的研究工作。


论文引用格式:

张慷, 桑洁丽, 吴美希. 面向异构算力网络调度的研究[J]. 信息通信技术与政策, 2023,49(5):42-47.


面向异构算力网络调度的研究


张慷1,2  桑洁丽1  吴美希3


(1.中国电信股份有限公司上海分公司,上海 200120;2.天翼云科技有限公司上海分公司,上海 200085;3.中国信息通信研究院云计算与大数据研究所,北京 100191)


摘要:在“东数西算”工程背景下,算力基础设施迎来了飞速发展,产生了大量异构算力资源。云—边—端的算力与网络协同,能够满足多种异构算力资源与众多应用场景的高效匹配。基于异构算力网络调度展开研究,为异构算力网络融合调度技术提供研究思路,系统性地分析了技术发展现状、算力网络融合调度关键技术与挑战,提出了众多应用场景。但实际应用中异构算力网络调度更为复杂,仍面临许多不确定性挑战,需要不断完善。

关键词:异构算力;算力网络;高效调度;算力应用


0  引言


目前,数据处理对于算力的需求日益剧增,数据中心或终端设备已无法满足业务对算力的需求。通过协调广泛的云—边—端的算力与网络来满足日益增长的数据处理需求,成为算力网络协同发展的方向。借助算力网络来调度和纳管异构计算能力,构建云—边—端一体化的异构数据算力网络调度机制,更好地满足涵盖大部分场景的需要,如边缘计算、人工智能以及高性能计算。


1  算力网络调度内涵


在5G技术到来之前,大规模的算力应用集中出现在单点设备上[1]。一些具体的应用场景对数据中心的并发计算能力、网络吞吐量能力、存储能力提出了特定的要求[2]。随着5G、大数据、人工智能等新技术的发展,海量数据逐渐扩散到网络边缘[3],加速了算力从数据中心向网络边缘转移,甚至向终端设备扩散。


算力网络是一种根据业务场景需求,在云—边—端之间按需调度算力、网络和存储资源的新型信息基础设施。企业客户或者个人用户通过算力网络,灵活地进行算力调度。同时超级计算中心、人工智能计算中心、通用数据中心等都已融入算力网络,算力与网络正走向融合。


实现算力网络调度的重点在于算力调度与运营的结合,对用户的各种需求匹配合适的资源,根据不同业务场景对多样性算力资源进行自动的需求匹配和调度。同时,算力网络调度的场景和范围比较广泛,需要在多云之间、云和数据中心之间、云网之间进行协同,在跨行业、跨地区、跨层级等复杂场景中进行调度。


2  异构算力网络发展现状


2.1  异构算力发展奠定了算力网络调度的基础

近年来,由于边缘计算等新型计算业态的出现,数据中心的资源部署已经从传统的集中式中心云的模式,逐渐演变为云与边缘计算协同调度的模式。未来移动互联网的发展,将逐步推动包括终端在内的泛在计算与之协同发展。


以云—边—端为主的新型算力资源的协调发展,使得泛在计算构建了不同层级的算力结构,算力架构已经从通用架构转向了专门定制。异构算力融合了中央处理器(Central Processing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)等多种芯片,可以满足不同类型、不同场景的算力需求。CPU作为通用芯片使用和部署,广泛应用于服务器和嵌入式终端;GPU多用于快速矢量图形数据处理;FPGA是一种可编程逻辑芯片,常用于逻辑控制方面;ASIC用于具体场景的处理。在市场需求的驱动下,算力的发展呈现多样性,打破传统单一架构的算力形态,从而实现异构算力协同以应对不同场景下的数据处理。


2.2  算力网络相关研究持续深入

算力网络从产业、标准、学术等方面持续展开研究,并形成了丰富的研究成果。


在产业方面,中国电信集团有限公司(简称“中国电信”)在《云网融合2030技术白皮书》中,将算力网络作为在云网一体阶段的重要技术,并指出算力网络技术重点考虑四个方面。中国联合网络通信集团有限公司(简称“中国联通”)发布了《中国联通算力网络白皮书》,对算力网络的架构、标准和产业生态等方面进行研究,后续又发布了《云网融合向算网一体技术演进白皮书》。中国移动通信集团有限公司(简称“中国移动”)联合华为技术有限公司(简称“华为”)发布了《算力感知网络(CAN)技术白皮书》,提出了算力感知网络分布式系统新架构,后续又发布了《算力网络白皮书》和《算网大脑白皮书》。2018年,电气与电子工程师协会(Institute of Electrical and Electronics Engineers,IEEE)发布了由中国电信、中国移动、中国信息通信研究院、华为、百度在线网络技术(北京)有限公司(简称“百度”)等联合撰写的白皮书《IEEE 802 Nendica报告:数据中心无损网络》(IEEE 802 Nendica Report: Lossless Networks for Data Centers)[4]。中国信息通信研究院联合华为提出“超融合数据中心网络”,将全无损以太架构和管控析一体进行管理融合,同时融合全场景服务化能力,实现通用计算、高性能计算、存储的融合[5]


在标准制定方面,国内电信运营商纷纷牵头对相关标准进行立项。中国电信牵头的算力网络框架与架构标准(Y.2501)在国际电信联盟电信标准分局上获得通过,并研究支持算力网络的下一代网络演进编排增强要求和框架。中国电信、中国联通联合立项Y.ASA-CPN标准,重点研究算力网络的认证调度架构。中国移动在国际电信联盟牵头建立包含5个标准在内的算力网络国际标准体系。中国通信学会、中国通信标准化协会等开始制定算力网络相关标准。开放数据中心委员会已完成面向可编程算力路由网关的立项[6]


在学术方面,持续开展算力网络相关的技术创新。2013年,Jain等开始对B4系统的算力网络展开研究[7],通过路由代理进行OpenFlow交换机和Qugga控制器的连接,完成路由和接口的更新,协议报文转发,实现跨数据中心的算力服务协作。随后,学术界又提出了算力网络层面的各项方案,包括网络底层路由协议扩展、覆盖层任务分解和算力映射、跨层的统一算力网络控制等方案。


2.3  算力网络技术创新加速

目前,算力网络在技术方面的创新主要包括新架构、新调度、新度量(见图1)。在架构方面,算力与网络逐渐走向融合,算力基础设施融合架构正在创新发展。在算力调度技术方面,计算能力调度从只支持网络的调度模式逐渐转变为算力与网络相匹配的调度模式,主要包括计算能力的跨区域和多层次调度、计算能力资源的统一调度、网络协议、可视化监控和智能运维。在算力度量方面,算力和网络度量的内涵不断扩展,算力度量由单一节点向一体化综合协同度量转变。

图1   数据中心算力网络发展趋势

目前,运营商正在开展算力网络相关的技术创新与实践。中国电信以“云”为算力网络建设的核心,将算力、网络与存储资源进行融合,不断推进技术创新与升级,实现天翼云节点和天翼边缘节点统一调度与管理。中国联通正在全国多地陆续开展算力网络建设试点工作,通过算力感知、网络切片、算力网络业务链等技术,实现算力智能分配与调度,形成一体化的云、网络、安全的服务。中国移动不断优化底层算力基础设施,通过X86和ARM两种架构丰富通用算力网络,通过GPU、FPGA和ASIC丰富智能算力[8]

3  算力网络融合调度发展现状

算力网络融合是以算力基础设施和通信网络设施融合发展为基础的一种新业务模式,通过计算、网络和存储资源统一编排和管理,满足应用场景对算力和网络在灵活弹性、智能高效、安全可靠等性能方面的需求。算力网络融合能够解决现有传输控制协议/网际协议(Transmission Control Protocol/Internet Protocol,TCP/IP)网络体系结构存在的技术瓶颈,增强泛在算力一体化管理能力,满足业务场景对于低时延、高可靠网络的需求。算力网络融合调度主要基于现有的云网融合技术,实现云—边—端算力按需调度。算力网络融合调度关键技术包括算力网络基础设施、调度路径、编排管理等技术。

3.1  算力网络基础设施是算力网络融合能力的底座
算力网络基础设施为算力网络融合提供计算、网络、存储等资源,以工业互联网、卫星互联网、软件定义广域网络等各类网络为基础,以超算中心、智算中心、云计算数据中心等为支点,以5G、大数据、人工智能等新兴技术为方向,实现网络传输、异构计算以及数据分析能力。在技术层面,算力网络基础设施包括算力、网络、算力网络一体化,其中算力主要包括算力抽象、算力度量和算力卸载等技术,网络主要包括智享广域网、光交叉连接等技术,算力网络一体化包括算力路由和在网计算等技术。

基础电信运营商在推动算力网络基础设施建设过程中扮演重要角色,其重点工作在研究算力网络技术验证和制定标准,建设云—网—边一体化算力调度和交易平台[9]。中国电信规划了“核心+省+边缘+终端”四级架构的算力网络,为行业提供算力网络数智等多要素融合的服务,并基于天翼云4.0分布式云泛在算力,在全国形成了“2+4+31+X+O”前瞻性布局,推进云网技术实现耦合联动,网络围绕数据中心扁平部署,算力中心向边缘多级演进,提供海量数据存储与多形态、高性能计算,打造云网一体新型基础设施。中国移动在网络基础设施层加快构建光—电联动的全光网络和云—边—端全连接的智能IP网络,优化网络结构,扩展网络带宽,减少数据绕转时延,以运力促算力,打造新一代算力基础网络和算力网络协同新体系。中国联通提出了基于SRv6的SIDaaS可编程服务理念,实现网络SID和应用SID的统一编排、灵活调度,支撑复杂应用场景,同时研发了算力网络一体化编排调度平台,能够实现对算力网络资源、公有云、私有云的统一智能调度。

3.2  调度路径决定算力网络融合调度的发展方向
实现算力网络融合调度主要有网调云和云调网两种模式。网调云是以运营商为代表,强调以网络为中心,一网多云,通过网络调动云的模式;云调网是以传统的云商为代表,强调以云为中心,一云多网,通过云调动网络的模式。由于两种模式都有各自的特点和局限性,在很长一段时间内都会共存,以满足不同场景的需求。

网调云模式是通过网络提供连接和计算服务,根据用户需要实时匹配算力。用户首先选择网络节点,网络入口感知用户请求的算力服务和服务水平协议要求,执行任务式服务分发到具体云服务节点。由于网络侧感知用户需求和链路质量,调度、调整资源更加实时、精准。但这种模式的缺点是受限在单一运营商网络运营区域的服务范围。

云调网模式是通过网络为云提供连接支撑,并且根据云服务需求进行调整。用户首先选择云服务节点,云服务节点再根据资源状况或用户之间的网络情况,选择另一个云服务节点以及路径。该模式可以随时随地获取服务,不受接入网络限制,但是网络质量下降(如空口拥塞),只能在应用侧通过降低解码率等方式来适配解决。

3.3  编排管理技术是算力网络融合的调度中枢
编排管理技术是算力网络融合的调度中枢,算网大脑是编排管理层的核心。算网大脑主要负责对算力网络资源进行统一调度、编排、运维和管理,实现感知、调度与决策。它主要由算网编排中心、算网调度中心、算网智能引擎、算网数字孪生中心四部分组成。算网编排中心实现算力网络服务网络资源和算力资源统一编排;算网调度中心实现算力和网络资源采集、感知和调度;算网智能引擎实现网络与计算性能、资源之间的最优解决方案;算网数字孪生中心利用数字孪生技术实现算力网络建模与编排仿真。

运营商在算网基础设施方面具有先天优势,目前都采用不同方式搭建算网大脑体系。中国电信发展算力网络主要采用云网融合技术,在该技术体系中实现算网大脑的统一编排和调度。算力网络技术可能成为未来算网大脑功能建设的重点方向,因此中国电信重点在算力感知评估、资源标识、资源整合、算力交易四个方面发展算力网络技术。中国联通致力于打造行业标志性、领先性的类脑化智慧中台,加快形成超级计算云网络引擎,打造云网融合、算网融合、高速泛在、安全可靠的智能中枢神经系统,实现算力网络能力互联互通[10]。中国移动设计了“3+2”算网大脑功能架构,主要包含算网大脑能力开放中心、算力网络智慧中心、算力网络协同编排中心三个功能模块,同时包含算力网络感知和跨域调度平台两个能力底座。通过引入人工智能、数据湖、数字孪生等技术,向下实现泛在算力的跨层跨区域融通和网络的跨域跨专业拉通,向上实现算力网络融合类业务的支撑,同时纳管三方云资源、终端算力资源、社会算力资源、国家算力枢纽算力资源等多方算力资源。

4  异构算力网络融合调度面临的挑战

算力网络是全新的网络架构,在融合调度技术发展的过程中,在异构适配、调度技术、算力标准等方面面临着诸多问题。

在异构适配方面,不同框架、不同硬件、不同厂商的适配存在困难,暂无异构算力调度适配接入的成熟研究。目前,数据中心算力集群接口不同,同时存量的数据中心各厂商提供的算力集群调度器存在差异,无法统一整合调用,需通过适配器进行统一化。AI框架的应用无法直接调度,需要应用代码迁移;不同的加速芯片适配算法具有高度的专有性,并且算法技术复杂多样[11]。同时,跨计算芯片厂家的作业调度生态支持能力弱,异构芯片适配标准不统一。

在调度技术方面,算力、传输、网络、绿色低碳4个因素互相制约,同时算力调度还处在探索阶段,面临着异构设备纳管,算力资源的感知、度量与调度,安全可信,场景适配,算力调度算法优化等方面的问题。

在算力标准方面,业内对异构算力资源量化和多样化业务需求尚未形成统一的结论。CPU、GPU、FPGA、ASIC等异构芯片提供多样性算力,难以进行统一的衡量。同时技术要求、接口规范、设备规范等维度的标准工作尚待完善。

5  异构算力网络调度应用场景

应用场景按照算力需求程度分为时延敏感性和非时延敏感性应用场景。时延敏感性应用场景对响应时间有明确的精度要求,并且对算力资源距离数据生产的位置有要求。这类应用场景包括智慧医疗、智慧交通、工业互联网、卫星互联网、自动驾驶等。非时延敏感性应用场景对响应时间和算力资源的位置没有明确要求,可以选择在远程算力资源上运行。这类应用场景包括视频渲染、影视制作、数据离线分析、数据后台加工等。

应用场景按照算力类型的共性分为渲染交互、检索查询、深度学习和区块共识4类应用场景。渲染交互类应用场景包括自动驾驶、远程医疗、虚拟现实、增强现实和电子商务;检索查询类应用场景包括推荐服务和分布式搜索;深度学习类应用场景包括视频分析、智能对话、目标检测、目标跟踪故障诊断等;区块共识类应用场景包括跨境支付、智能合约、数字加密货币、分布式账本、商品溯源等[12]

应用场景按照算力应用领域分为社会、生产、生活3类应用场景。社会应用场景包括科研试验、数字政府、智慧城市等;生产应用场景包括智能制造、智慧交通、智慧医疗、车联网等;生活应用场景包括虚拟现实游戏、教育培训、社交娱乐、家庭安防等。我国算力应用主要分布在互联网、政企、金融行业。其中互联网可细分为公有云、网站、视频、人工智能、电商、游戏等领域[13]

6  结束语

异构算力网络融合调度本质上是融合算力与网络技术,将不同类型的算力资源高效精准地调度到具有相应需求的资源节点。异构算力网络调度技术包括感知用户需求和全网的算力网络资源、编排和路由策略。未来以运营商和云商为代表的参与者将在实现算力网络融合调度的过程中,按照网调云和云调网两种路径发展,在软硬件方面共同发展算网基础设施和编排管理技术,以解决异构算力网络融合调度面临的问题,持续推动技术创新,加速创新成果应用,使算力不断赋能产业,助力数字经济发展。

Research on heterogeneous computing power network scheduling

ZHANG Kang1,2, SANG Jieli1, WU Meixi3

(1. China Telecom Corporation Limited Shanghai Branch, Shanghai 200120, China; 2. China Telecom Cloud Science & Technology Limited Shanghai Branch, Shanghai 200085, China; 3. Cloud Computing & Big Data Research Institute, China Academy of Information and Communications Technology, Beijing 100191, China)

Abstract: Under the background of the project of national computing network to synergize east and west, the computing power infrastructure has ushered in rapid development, resulting in a large number of heterogeneous computing power resources. The computing power and network collaboration of cloud, edge, and device can meet the efficient matching of multiple heterogeneous computing power resources with many application scenarios. Based on the research of heterogeneous computing power network scheduling, this paper provides a research idea for the scheduling technology to achieve heterogeneous computing and network convergence, systematically analyzes the technological development status, key technologies and challenges, and points out many application scenarios. However, in practical applications, heterogeneous computing network scheduling is more complex, and it still faces many uncertainties and challenges, which requires continuous improvement of technology.
Keywords: heterogeneous computing power; computing power network; efficient scheduling; computing power application


本文刊于《信息通信技术与政策》2023年 第5期



主办:中国信息通信研究院


《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。



《信息通信技术与政策》投稿指南


为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊官方网站已正式投入运行,欢迎投稿!





   推荐阅读  



专题丨面向算存运一体的数据中心存力发展研究
专题丨算网融合下的多云部署和数据存储发展趋势分析
专题丨数据中心单相浸没液冷规模化应用关键技术研究
专题丨绿色低碳化发展视角下数据中心电算网融合分析
专题丨算网融合产业发展分析
专题丨新一代云网融合数据中心关键技术研究
专题丨以服务为中心的算力网络度量与建模研究
专题丨我国算力网络发展评估体系研究
专题丨算力调度关键问题和实施路径研究
专题丨数据中心发展综述
专题导读:算网融合
《信息通信技术与政策》2023年第49卷第5期目次及摘要


“在看”我吗?

【声明】内容源于网络
0
0
信息通信技术与政策
工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”。
内容 986
粉丝 0
信息通信技术与政策 工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”。
总阅读592
粉丝0
内容986