大数跨境
0
0

优文推荐 |算力互联网架构:基于熵平衡支持算力资源跨域互联的下一代网络架构

优文推荐 |算力互联网架构:基于熵平衡支持算力资源跨域互联的下一代网络架构 鹏博士研究院
2025-12-01
2
导读:优文推荐 |算力互联网架构:基于熵平衡支持算力资源跨域互联的下一代网络架构

本公众号部分分享的资料来自网络收集和整理,所有文字和图片版权归属于原作者所有,且仅代表作者个人观点,与本公众号无关,文章仅供读者学习交流使用,并请自行核实相关内容,如文章内容涉及侵权,请联系后台管理员删除。

来源:通信学报

中国科技期刊卓越行动计划中文领军期刊



算力互联网架构:基于熵平衡支持算力资源跨域互联的下一代网络架构

栗蔚 1,2张博圣 2孙松林 2闫丹 1邹文浩 1赵伟博 1王润岩 1余晓晖 1 图片

1. 中国信息通信研究院,北京 100190; 2. 北京邮电大学信息与通信工程学院,北京 100876 )

DOI:10.11959/j.issn.1000-436x.2025169

引用本文:

栗蔚, 张博圣, 孙松林, 等. 算力互联网架构:基于熵平衡支持算力资源跨域互联的下一代网络架构[J]. 通信学报, 2025, 46(9): 1-16.

LI W, ZHANG B S, SUN S L, et al. Internet of computing architecture: next generation network architecture for supporting cross-region computing resources interconnection based on entropy balance[J]. Journal on Communications, 2025, 46(9): 1-16.


摘 要 传统互联网体系架构已难以满足当前多样化计算任务与多维异构算力资源匹配调度的复杂需求。基于对国内外网络体系演进路径和最新进展的系统性梳理,针对算力互联成网建设中存在的概念体系不完善、理论基础薄弱、实践局限性明显、难以支撑广域协同发展,以及标识割裂、协议缺失、跨域调度能力不足等共性问题,提出了“算力互联网(IoC)”的概念与设计原则,构建了以资源状态熵平衡为核心的理论体系,并在此基础上形成算网设施、资源互联和应用服务3层整体架构设计和工程实践。通过新增的资源互联层实现了多主体资源之间跨域互联,同时将资源状态熵作为跨域任务调度的度量模型,并通过实机部署与实验验证,验证了其在跨域资源协同和动态任务调度中的有效性与可扩展性。
关键词 算力互联网算力网络熵平衡计算任务资源编排调度算力标识

0 引言

人工智能等技术的发展对网络提出了新的挑战,网络的作用正在从“连接信息”向“连接资源”提升。一方面,在智能计算、视频编解码等的场景中,计算任务及其数据需要在最匹配的计算、存储和网络资源之间高效调度和流动,需要综合计算负载、时延、存储、价格等因素,在跨域的分布式计算资源池中寻找最匹配的“算力资源”。另一方面,我国算力资源虽然整体规模较大,但是面临“小、散、闲”和供需余缺并存的现象,需要为计算任务高效匹配全局资源,提高利用效率。这种以计算任务和资源匹配调度为核心的需求变革,要求网络体系不仅是信息的传输载体,还要具有增强跨域感知、协同调度资源的能力,形成具有传输和计算逻辑一致性与动态适应能力的融合体系架构。
在这一背景下,赋能人工智能技术突破和应用拓展,计算资源跨域互联的下一代网络是未来方向。因此,本文提出算力互联网,面向计算任务及其数据的调度需求进行能力增强和系统升级。
本文针对人工智能时代计算任务和算力资源跨域匹配互联与融合使用的迫切需求,提出了“算力互联网”的概念和设计原则;然后,创新提出了算力互联网的计算任务和算力资源匹配调度的熵平衡理论和数学模型;最后给出基于熵平衡理论和数学模型的算力互联网的工程实践,使计算任务及其相关数据可精准寻找相适应的算力资源并高效执行,形成算力相互连接、灵活调用的一张网,达到全网算力资源熵平衡的目标,实现算力资源“一点接入、全算贯通”,推动算力普惠化发展。

1 网络架构的国内外发展

1.1 网络架构的发展

1.1.1 计算机网络
计算机网络的概念起源于20世纪60年代,旨在解决计算机之间的数据通信问题并提升计算资源利用率[1]。1969年,美国国防高级研究计划局(DARPA)启动ARPANET项目,采用分组交换与网络控制协议,奠定了现代互联网的雏形[2-3]。此后,网络技术不断演进:20世纪70年代,以太网促进局域网发展[4];20世纪80年代,传输控制协议/网际协议(TCP/IP, Transmission control protocol/Internet protocol)成为全球互联标准[5];21世纪,数据中心采用3层架构支持大规模计算[6]。在网络体系结构方面,计算机网络广泛采用分层设计原则。其中开放系统互连(OSI, open systems inter-connection)模型是最具代表性的分层结构之一[7-9]。该模型共划分为7个层次:物理层、数据链路层、网络层、传输层、会话层、表示层和应用层,各层之间通过明确的接口协作完成从物理传输到用户交互的全流程通信功能。此外,在实际工程应用中更为简化的5层协议体系结构也得到了广泛采用,该结构具有协议标准化、良好扩展性与分布式计算等关键特性,为现代互联网和云计算提供了坚实基础[10-12]
1.1.2 电信网络
电信网络的发展始于19世纪末的电话通信系统,最初旨在实现远距离语音传输[13-14]。随着传真、综合业务数字网和移动通信等业务出现,电信网络从以语音为核心的电路交换模式,逐步演进为支持多业务的综合通信体系,覆盖本地接入、区域汇聚和长途传输等层级[14-15]。其架构一般遵循国际电信联盟电信标准化部门(ITU-T, ITU Telecommunication Standardization Sector)提出的分层架构模型,包括用户接入层、传输层、控制层、业务层和管理层。20世纪90年代末,下一代网络(NGN, next generation network)的概念提出[16-17],为了突破传统电信网络存在的多业务割裂、架构封闭与运维成本高等结构性瓶颈,国际通信标准组织提出NGN采用控制与承载分离的架构设计,以多协议标签交换技术为核心,借助软交换实现控制层与承载层解耦,支持语音、数据与多媒体业务的统一承载和开放业务接口[18-19]。按照ITU-T Y.2011等标准,NGN体系通常包括接入层、承载层、控制层、业务层和管理层,分别负责用户接入、数据转发、信令控制、业务服务与网络管理,构成支持全业务融合与灵活运营的综合通信架构[19-23]。随着网络技术的迭代升级,ITU-T在NGN架构基础上开展了持续的演进研究,形成了NGNe(NGNe, next generation network evolution)技术体系。NGNe充分借鉴软件定义网络的核心设计理念,突破传统NGN控制层与承载层的架构局限,实现了控制平面与转发平面的深度分离,将网络架构重新划分为3层体系:业务层、控制层和基础设施层。

1.2 算力和网络融合研究进展

近3年来,算力与网络融合成为学术界和产业界的研究热点。在网络架构层面,算力网络(CPN, computing power network)作为一种新兴范式,从网络层面连接分布式异构算力资源,构建了覆盖基础设施、资源池化、资源通告、智能调度到编排管理的框架,便于网络工程化实施与运维闭环[24]。算网融合(CNC, computing and network convergence)提出了“计算-网络一体化、零时延、随取随用”的愿景,围绕异构资源、多目标优化和多样化任务调度展开了深入探讨[25]。相关研究还提出了“计算优先网络”(CFN, compute first networking)的理念,侧重云边端分布式网络架构[26]。算力感知网络(CAN, computing-aware network)通过引入算力路由层、算力资源层以及算网管理层等多个层次,实现算力的智能调度和网络资源的灵活配置,但实际应用中仍面临复杂性和不确定性挑战[27-28]
进一步来看,在面向未来网络的研究中,算力网络被认为是支撑第六代移动通信技术时代多级资源部署和灵活调度的重要架构,可满足用户、政企及算力开放场景下的广泛需求[29]。与此同时,针对边缘计算带来的流量模式变化,学者提出了基于IP扩展的算力互通架构,使得网络能够结合时延、计费与资源位置等多因素,优化算力与网络的联合分配与调度[30]。在人工智能驱动的背景下,Net-in-AI框架通过在人工智能(AI, artificial intelligence)算力池中构建网络,实现了算力使用的适应性提升、网络灵活性增强以及算力提供方的盈利能力保障,展现了算力互联在泛在AI应用中的巨大潜力[31]。此外,服务编排与调度方面的研究也在快速推进,例如在车联网场景下通过算力网络感知与预准备机制,实现了算力服务节点的快速切换和用户无感知体验,有效提升了业务连续性与服务质量[32]

1.3 算力互联成网产业发展现状

1.3.1 全球发展现状
政策方面,多国相继出台了相关战略与技术规划。美国能源局互联东西海岸40余个科研与工程机构,实现算力资源的共享与大规模协同计算,并规划了基于远程直接内存访问(RDMA, remote direct memory access)的长距离高性能数据传输方案。英国通过“灯塔项目”聚焦算力互操作性问题,致力于研发和测试面向多行业应用的通用调度与接入能力,保障不同用户能够便捷访问算力资源,促进科技创新与产业增长。欧盟委员会发布《2023—2024年数字欧洲工作计划》,以政策引导与项目投资的形式,推动构建欧洲范围内互联、可信、可互操作的算力环境,提升区域数字基础设施的自主能力与战略韧性。中国发布《算力互联互通行动计划》,旨在加快构建算力互联互通体系,实现不同主体、不同架构的公共算力资源标准化互联,促进算力高质量发展,预计到2028年,基本实现全国公共算力标准化互联,逐步形成具备智能感知、实时发现、随需获取的算力互联网。
标准方面,电气电子工程师学会(IEEE, Institute of Electrical and Electronics Engineers)主导制定云间互联相关标准,提出通过标准化接口和协议,构建支持计算应用与数据灵活部署的高质量、安全互联通道,进而支撑跨平台的协同计算体系。2024年7月,ITU-T SG13成功立项ITU-T Y. NGNe-RC《支持计算资源跨域互联的下一代网络演进框架和要求》,规定了下一代网络演进的框架和要求[33]
1.3.2 国内发展现状
基础电信运营商提出算力网络和算力并网方案[34]。算力网络的侧重点是让网络层融合算力信息,将任意数据中心之间数据流动的最优路由设计成带有段标识符的算力路由标签,由每个数据中心出口路由器利用基于IPv6转发平面的段路由技术封装在流量包里,在承载网进行路由转发。算力并网侧重点是在调度层将社会其他闲散算力或者自身不同类型的算力接入自身资源池统一管理,如中国移动“算网大脑”、中国电信“息壤”平台等,形成移动、电信各自一张算力“条状网络”[35]
地方政府发起算力调度平台的建设,侧重点是为各区域汇聚算力,服务本地区以及周边地区的算力需求。地方政府各自建设并运营编排调度系统,将区域内算力资源汇聚形成资源池,进行供需对接、交易购买、使用调度。由于各平台接口等方面未实现统一,区域算力调度平台之间相对独立,形成了算力区域“块状网络”。
鹏城实验室发起中国算力网建设,侧重点是满足国家级战略性重大项目与经济社会发展对算力的需求。采用高速低时延的光互联架构,利用全节点交叉互联技术,建设超大规模鹏程云脑智算资源。
超算联合体发起超算互联网,重点是将全国众多的超算中心连接起来,构建一体化算力服务平台[36]

1.4 算力互联网的提出

研究方面,目前,国内外初步探索了算力和网络融合的研究,但就整体网络架构而言,仍有很多研究方面的缺失。一是研究问题和对象方面,在算力网络等研究中,CPN和CFN大多是从通信模型和承载网视角出发,以“网”为主,强调在承载网层面增强对算力需求的支持。由运营商主导数据分发与链路调度,其优势在于利用既有网络基础设施进行算力感知,提升网络能力,但其局限性在于过于依赖运营商视角,不适于更多“算”企互联参与的整体架构,难以实现更广范围的适用。二是基础理论方面,多数文章为工程架构,缺少面向算力互联网络的概念内涵和理论基础,尚无科学理论基础支撑,难以支撑进一步的创新发展。
产业方面,目前实践仍以单点突破为主,难以形成全球化广泛的资源互联。比如,算力网络基于承载网实现的业务,其路由信息不包括算力资源本身标识,只有网络运营商可以实现,算力服务商参与度较弱。中国算力网探索了远距离光传输的技术和超节点卡间互联等技术。算力并网和超算互联网的技术方案相似,通过编排调度实现逻辑的算力资源互联。产业界类似互联网形成之前的局域网阶段,各自成网,资源互联有限,缺乏支撑跨域计算资源互联的统一网络架构、标识协议体系等能力,导致互联计算和网络感知协同不足,人工智能等计算任务和数据在资源之间跨域调度能力有限。综上所述,亟须为算力互联成网提供有效的支撑,加快各个体系的算力网互联,形成算力互联网。
网络概念区分如图1所示,互联网主要实现过顶服务(OTT, over the top)应用和信息的长链接互相访问,OTT业务网和承载网是分离的;算力网络实现承载网内对算力流量的感知,承载网中控制面和传输面还是在一起的,都在运营商,和其他算力提供商算力业务分离;算力互联网是互联网面向计算任务和调度升级的,实现不同算力提供商、不同运营商之间算力信息的智能感知、实时发现、随需获取。本文提出的算力互联网从“算”的角度出发,探讨“算力互联”的网络架构,一是研究问题和对象,包括端到端的计算设备、计算资源、计算任务之间互联网络,不仅仅是基础设施之间的网络,并不局限于网络如何感知算力等传统承载网网络层面问题。二是基础理论和架构,理论方面,给出算力资源状态熵平衡的基础理论,验证算力互联网实现的基础意义和价值;架构方面,充分结合计算机网络和电信网络的架构,通过将控制面从承载网中分离,构建新的资源互联层,能够同时调度网络传输资源与计算资源,实现跨地域、跨主体、跨架构的调度。算力互联网突破了传统格局,使网络运营商、云服务商、智算中心等均能在统一的架构下参与协同,从而形成开放、可扩展、多方共治的算力资源互联网新模式。
图片
图1   网络概念区分

2 算力互联网内涵和设计原则

本文提出支持计算资源跨域互联的下一代网络架构——算力互联网,是一个理论架构,并不是某个网络具体名称,凡是符合本文算力互联网概念、设计原则、理论模型和工程实践的都可以视为算力互联网的有效实践。本文的主要内容包括5个部分,具体如下。
一是提出了算力互联网的内涵和设计原则。
二是提出算力资源状态熵的概念,在此基础上提出熵平衡的网络架构理论和数学模型,给出了不同计算任务和跨域算力资源匹配调度的熵平衡。
三是基于熵平衡的理论模型基础,创新提出包括算网设施层、资源互联层和应用服务层的算力互联网架构,在支持算力资源跨域互联的下一代网络架构中,算力互联网通过分层设计实现任务调度与资源匹配的高效协同,并以新增资源互联层为核心实现资源状态熵平衡理论的应用,形成统一的感知与调度架构。
四是提出工程实现方式,包括算力标识、调度系统、智算组网等工程应用。
五是给出了典型应用场景和仿真验证实验,证明基于熵平衡和算力互联网架构可以实现更优的网络和计算资源协同的调度能力。

2.1 算力互联网内涵

算力互联网是指互联网面向计算任务与调度需求进行能力增强和系统升级,通过在互联网上构建统一算力标识和协议接口、增强异构计算和跨域高性能网络传输能力等方式,使计算任务及其相关数据可精准寻找相适应的算力资源并高效执行,形成算力之间智能感知、实时发现和随需获取的一张逻辑互联网络。
算力互联对象指的是包括了实现计算能力的软硬件,相关辅助协同的网络和存储等资讯技术(IT, information technology)资源,以及基于算力的相关应用,涵盖IT基础设施、IT资源和任务应用3层。
IT基础设施包括数据中心机房、机柜、供电、制冷等物理设施,以及服务器、计算芯片(CPU/GPU/ASIC等)、存储设备以及连接它们的网络交换机和光纤等各种硬件设备。
IT资源包括了通用计算、智能计算和超级计算,云、边、端等多样计算资源,以及网络资源和存储资源等。
任务应用指的是某一时间段计算执行并返回结果的一类程序和相关数据,与传统互联网的小数据长期运行计算的应用不同,计算任务的特点是不需要持续连接和持续运行,某个时间段对大量数据进行计算,比如人工智能推理任务、渲染任务、科学计算任务等。

2.2 基于熵平衡的算力互联网设计原则

算力互联网的设计原则具有良好的通用性与可扩展性,既可作为国家级算力互联建设的顶层架构指导,为跨区域、跨行业的算力资源互联互通提供统一标准,也可为当前各类区域性或行业性算力互联网络(即“局域网”式算力集群)提供体系化的设计参考与演进方向。本文在充分考虑算力资源异构性、调度动态性和网络承载多样性的基础上,提出了可推广、可移植、可持续演进的系统方案。因而,不仅适用于中国当前推动的国家级算力互联网建设,也面向全球范围内复制和构建智能化、融合化、高效率的算力互联体系,提供可借鉴的理论模型与技术路径,推动形成全球协同的算力资源互联新格局。
2.2.1 基础:资源匹配和任务调度的熵平衡
在算力互联网中,计算任务和算力资源最优匹配调度和网络传输最优路径调度的“双优”,是保障系统性能和服务质量的关键环节。面对高度分布式和异构的计算资源,单一节点过载或空闲都会导致整体资源利用率、服务质量的下降,甚至影响任务执行的稳定性与可预期性。为此,算力互联网在架构设计中应坚持熵平衡原则,即通过合理的调度策略实现任务在各类资源节点间的均衡分布,避免资源分布的失衡和局部拥塞。熵平衡强调在任务调度过程中,充分考虑节点的可用能力、网络流量状态等多种因素,使任务能够动态地、合理地分配至最合适的节点。其核心目标并非使所有节点的利用率绝对一致,而是在系统整体性能、资源效率与服务需求之间取得一种相对均衡。
2.2.2 功能:开闭原则
算力互联网架构作为对现有互联网体系的延展,并不重构底层网络架构,而是在现有互联网架构内,抽象并增强上层业务和算力逻辑网络的能力。这种设计策略符合软件工程中的“开闭原则”,即系统对功能扩展保持开放,对核心结构修改保持封闭。算力互联网通过模块化资源、标准化接口和分层架构机制,实现了对传统互联网的非侵入式增强。
2.2.3 结构:可扩展性
算力互联网需支持大规模、多类型、多层级的算力资源动态接入与统一调度,以及多样性、波动性的计算任务使用,因而系统设计必须具备良好的结构扩展性和服务可扩展性。一方面,系统应具备横向扩展能力,能够支撑节点数量线性增长且性能平稳;另一方面,应支持纵向扩展能力,容纳不同类型计算资源和计算任务。此外,系统各功能模块应解耦设计,支持不同用户的不同计算任务的调度接入集成服务,适应按需部署和适配不同网络规格和业务场景的部署需求。

3 支持计算资源跨域互联网络架构的资源状态熵平衡理论和模型

3.1 流程机理

算力互联网流程机理可被抽象为一个跨域的端到端的过程,如图2所示,即任务经过识别,之后进行任务算力编排匹配,通过数据传输,在资源池上进行部署。该过程包含4个重要部分:计算任务识别、任务算力匹配、数据传输流动和计算任务执行。算力和电力的流程有所不同,算力不能流动,流动的是计算任务和数据。
图片
图2   算力互联网流程机理
1) 计算任务识别:该环节标识出需要被调度的计算任务及其特征。在算力互联网中,这一阶段通过统一规则识别任务类型、资源需求、数据位置和地理偏好等参数,生成对资源的描述,并和计算任务一起封装,同时还包括了计算任务与其资源描述,决定调度复杂度和资源需求边界。
2) 任务算力匹配:通过算力互联网中算力互联互通等类似平台的互联能力,实时感知不同地域、不同主体和不同架构的算力资源状态,包括计算能力、存储状态、网络带宽等,依据任务的算力资源描述,将计算任务匹配到合适算力资源。该环节将任务对算力的需求抽象为结构化的类似“地域、规格、时长、网络、存储”资源标识符,并利用编排调度集成能力将“任务-资源”映射关系打包发送出去。
3) 数据传输流动:该阶段承担计算任务输入数据的实际传输任务,依据算力资源标识信息,通过人工智能数据中心(AIDC, artificial intelligence data center)的高效网络将应用及其相关数据传输到目标算力资源。要求构建高性能、低时延的网络通道,在跨区域或跨主体算力资源之间传送计算任务和数据,同时保障调度指令与反馈的时效性与可靠性。
4)计算任务执行:该环节负责恢复出原始信息并完成计算任务,依托增强的调度接入集成服务和异构计算能力,接收计算任务和数据,部署执行并返回结果。在算力互联网中,该过程意味着在选定的算力节点上执行调度任务,完成计算、输出结果,并反馈资源状态。

3.2 计算任务的波动性和不确定性

3.2.1 波动性
计算任务的波动性是影响资源状态熵的主要因素,在算力互联网中,任务的特点是当任务所需的“卡时”服务完成计算任务后就会释放资源,所以任务的不确定性可抽象为2个相互独立的随机变量:单位时间内的任务到达数量与单个任务的服务持续时间。本文基于概率模型进行建模。
任务的到达过程一般建模为参数为图片的泊松分布,即在观测的单位时间内到达任务数量满足式(1)所示的概率密度函数。

图片 (1)
其中,图片表示任务的平均到达速率,即单位时间内到达的任务数量,也是期望值,k为实际单位时间内到达数量。
任务的服务持续时间建模为参数为图片的正态分布,其概率密度函数为

图片 (2)
本文利用期望值参数为图片的泊松分布与期望值参数为图片的正态分布分别建模任务到达速率和服务时长随机变量的统计特性,有效刻画任务到达频率与服务时间的随机波动性,为任务调度与系统性能分析提供理论依据。
3.2.2 不确定性
任务的不确定性体现在任务到达速率和服务持续时间的不确定性,根据图片图片的特点不同,可分为3种或更多任务类型。本文提出3种典型任务类型进行建模分析:人工智能训练任务、人工智能推理任务和视频渲染任务。根据排队论相关理论及实际采样,3种典型任务的概率建模如图3图4所示[37-38]。需要注意的是,这一分类仅作为示例,未来工作可进一步分类,扩展至更多应用场景,如工业仿真、区块链、天气预报、科学计算等场景。
图片
图3   不同类型任务的单位时间内到达数量概率函数
图片
图4   不同类型任务的服务时长概率函数
人工智能训练任务通常具有较低的到达频率和较长的执行时长,表现为泊松分布中的到达强度参数图片较小,服务时间对应的正态分布参数图片也较大。
人工智能推理任务则以短时高频为特征,任务到达速率显著提升且处理时延较低,对应图片较大,图片较小。
视频渲染任务在任务时长与到达频率方面相对均衡,其2种分布的参数值位于中等区间。

3.3 非跨域算力资源和跨域算力资源互联网络

3.3.1 非跨域算力资源
非跨域的算力指的是某个数据中心内部的算力资源,相同主体或相同架构的算力资源,其局域网络连接关系稳定、时延低、带宽高,具备良好的资源调度与负载均衡能力,一般是局域网内的不同算力资源互联,如图5所示。这类架构更适合于大模型集中算力训练的场景,能够提供一致性较高的算力访问路径和更优的整体调度效率,不需要面向跨地域或者跨主体的资源访问与调度机制,系统架构与管理逻辑也相对简化。然而,如果任务需要跨数据中心进行异地容灾、资源共享或多源协同计算,就必须满足跨域算力资源互联的网络要求,支持异构节点间的算力寻址、调度协同和数据一致性保障,以实现广域范围内的资源整合与高效计算。
图片
图5   非跨域算力资源互联网络结构
3.3.2 跨域算力资源
跨域算力资源互联网络结构如图6所示。跨域算力资源互联网络指的是能够互联整合不同主体、不同地域和不同架构的一种广域、异构的逻辑互联网络体系。该网络不仅承载了算力资源的连接功能,更实现了对跨域、跨平台、跨架构算力资源的统一识别、动态感知与协同调用。
图片
图6   跨域算力资源互联网络结构
图7展示了用户视角的算力资源互联,其计算需求具有高度的即时性和灵活性,需在不同时间和空间维度动态接入异地分布式智能计算资源,以保障推理请求的快速响应与计算的高效完成。在这一背景下,用户需面向全网范围发起任务调度请求,系统根据任务特征与资源状态进行智能匹配,动态选择最优算力节点,实现计算任务与资源的高效适配与灵活编排,最终达成“一点接入、全算贯通”的算力服务目标。
图片
图7   用户视角的算力资源互联

3.4 算力资源状态熵

设全网资源包含图片个资源节点,其整体资源状态可用一个矩阵图片来表示,每个资源池的状态设为图片,算力资源特征向量为图片,其中图片为计算可用状态,图片为通信可用状态,图片为存储可用状态,图片。一天24 h,每小时的利用率为是否有客户在使用的概率。任务的特点是当用户购买“卡时”后,“卡时”用完就会释放资源,根据购买频率假设用户是同时购买不同“卡时”,都是按照整点释放资源,那么图片,即资源池的利用率每小时就会更新一次。一天之中每小时平均利用率出现的概率为图片
本文提出“资源状态熵”,即一个节点图片的状态,状态越稳定,熵越低,状态越不稳定,熵越大。
节点图片的“资源状态熵”为

图片 (3)
3.4.1 状态类型及状态熵
为刻画算力互联网中节点资源使用状态的动态分布特征,本文在设计模型时引入了节点类型与利用率区间2个概念性划分。其中,节点类型指的是当下承担的计算任务类型所呈现的节点状态类型,可依据其业务特征、服务模式及任务负载结构进行分类,比如本文划分4种基础状态类型示例。
1) A类状态(推理任务较多,随时释放空间):该类节点以面向推理服务为主,任务周期短、计算负载轻,具有明显的瞬态特征与资源释放弹性。
2) B类状态(训练任务较多,时长较长,到达速率较低):该类节点多用于大模型训练,任务规模大、持续时间长、资源占用稳定但波动小。
3) C类状态(渲染、游戏、云计算机等):该类节点服务于实时交互型计算任务,对GPU/图形渲染能力依赖显著,具有一定的并发性和时延敏感性。
4) D类状态(空闲):处于备用或低利用率状态的节点,可作为弹性算力储备,支持突发性任务的快速接入或全局调度平衡的策略实施。
此类划分并不追求业务粒度的绝对精确,意在为资源状态建模提供结构化基础,便于状态熵计算等理论建模工作的展开。实际工作中,某一个节点会因为不确定波动性地接受各类任务,而呈现不断变化的复杂状态,这就是状态熵所要表征的特点。
在资源使用率划分上,考虑到利用率本身为随时间连续变化的动态变量,若直接以瞬时值建模,将导致状态维度过多、模型泛化能力受限。因此,本文将节点的算力利用率区间进行离散化处理,划分为4个典型区间:[0,30%]、[30%,60%]、[60%, 80%]、[80%,100%],分别代表空闲、低负载、中负载与高负载状态。比如某2 h利用率分别为35%和50%,都算作低负载区间,同一个区间的概率为这个区间的所有利用率概率之和,代表某个区间在24 h中出现的概率。按照4种状态类型和4个利用率区间,以计算资源的当下状态为例,根据资源状态熵计算式,有几种主要的情况,如表1所示,同理可以构建网络和存储的状态熵。

表1   算力资源状态熵

图片


需要强调的是,本文所列举的节点类型只是基础的几种示例,旨在构建理论模型的分析框架,更多的节点类型可根据实际部署环境、业务特征或计算任务需求灵活调整,并在后续工作中将结合实测数据与调度实践进一步展开定量优化与验证分析。
3.4.2 全网熵和平衡熵
表1可以看出,一般情况下节点资源是混合了A、B、C和D的状态,所以处于熵不稳定中。全网资源的熵为

图片 (4)
每个节点的状态并不是单一追求熵越低越好,比如D状态虽然稳定,熵为0,但空闲。为了达到每个节点尽量利用率最大且稳定的状态熵,应该保证每个节点的熵尽量均衡,尤其在任务的波动性和不确定性很大的情况下,应该综合A、B、C和D状态。可以假设某一个值为平衡熵,在计算任务分配时,尽量考虑节点的状态熵接近平衡熵。比如,B状态的熵是4类中利用率最高的,可以设为平衡熵。
通过全网熵的计算与优化,使分配计算任务后的各节点状态趋向于平衡熵,从而确保各节点的计算资源得到合理分配,避免资源的过度集中或闲置。

3.5 资源匹配和任务调度的熵平衡

假设算力服务商A有图片个推理任务矩阵图片,第图片个任务是图片,需要将图片个任务从全网图片算力资源匹配资源,找到最合适的资源向量图片,满足图片特征的资源需求。
初始情况下,由于图片的不确定性和波动性,在无匹配机制的情况下,每个节点图片随机承接计算任务。图8展示了算力互联网中算力节点的初始资源状态分布,其中,x坐标表示计算能力状态图片y坐标表示通信能力状态图片z坐标表示存储能力状态图片
图片
图8   算力节点的初始资源状态分布
算力节点在整个资源空间中呈非均匀、离散化分布,该状态下,如果缺乏有效的任务编排机制,计算任务可能会与资源状态严重不匹配,导致大部分的节点资源处于无序的熵中。
计算任务和算力资源匹配的熵平衡指的是,尽量减少任务不确定性和波动性对全网算力资源熵平衡的影响,即不同特征任务的到达频率与服务时间的随机波动对于空间中
【声明】内容源于网络
0
0
鹏博士研究院
内容 3395
粉丝 0
鹏博士研究院
总阅读385
粉丝0
内容3.4k