01
-
算力上, CPU/GPU/NPU/DPU 算力单元适合不同的负载,但传统服务器上只提供固定配比的算力组合,这使得服务器在面对负载变化时非常不灵活。需要基于负载的计算需求,按需组合不同算力,并且在运行过程中动态的将任务调度到最适合的算力上运行。 -
互联上,高速互联总线(UALink、NVLink、Unified Bus、CXL 等)带来了超低时延、超大带宽、高可靠性、内存语义等关键特征,但高速互联总线还需要结合操作系统,实现系统性的设计、控制、协同,才能让高速互联总线发挥技术优势。 -
存储上,传统以 CPU 为中心的架构中,GPU、NPU 这些算力发起对内存和存储的数据访问的路径极为复杂,涉及到多次数据的搬移,很容易出现带宽和算力的瓶颈,需要通过 GPU/NPU 直通存储,以及全局共享,降低数据搬移和通信的开销。
02
-
过度配置:业务潮汐特征,需要提前预留资源,低负载情况下资源浪费,无法根据负载进行灵活配比,即使通过云原生方式进行按需弹性,其弹性效率也存在瓶颈。
-
孤岛式架构:集群内资源彼此不共享,各个节点资源存在碎片,集群内无法有效进行资源碎片整合。
-
高性能 SLA 要求:多任务运行由于部分业务苛刻性能 SLA 要求无法进行混合部署。
-
存储管理上,以大模型生成式推荐训练为例,其 Embedding 表最大可到 100TB+,KVCache 达到 PB 级, 而 HBM/DDR 容量有限,GPU/NPU 需要从外置或远端存储中获取数据,使其大部分时间处于饥饿等待状态,严重影响训练效率。 -
算力协同上,Agentic AI 以及推理的 CPU+XPU 协同,当前通算和智算的资源调度和管理方式都是独立的“烟囱”,由于缺少统一的协同机制,使得推理、通信负载不协调,造成了显著的长尾,频繁出现资源空闲(Bubble)问题,最终导致系统整体吞吐量变低。
03
-
性能挑战:计算架构的多样性,从 CPU->CPU+XPU,从片间异构->片内异构->核间异构,操作系统需要高效组合异构算力,提升任务处理速度。缩短数据供给速度与 XPU 计算速度的差距,提升计算效率。 -
资源利用率挑战:资源使用的时空不均,导致资源利用率低。时间上,如错误恢复时计算资源闲置;空间上,GPU 和显存不够 CPU 和 DRAM 浪费。需要池化和算力弹性,打破服务器盒子边界,实现大范围不同设备的池化和资源动态分配,提升闲置资源利用率。 -
可靠性挑战:链路拥塞、时延抖动、闪断丢包等异常都会导致系统性能规格急剧劣化、甚至不可用,需要结合操作系统进行精确感知、有效地故障处理及高效的故障恢复,避免故障扩散。 -
易运维挑战:面向大规模的多样化异构算力集群,全局资源管控、软件部署、故障定位定界等问题都变得更加复杂,操作系统需要考虑如何实现对不同算力的高效统一管理、软件高效部署,以及故障问题的高效定位定界。 -
生态兼容和应用平滑迁移挑战:计算系统都是伴随相应的计算范式同步发展,计算范式衔接芯片、硬件、系统软件和应用架构,形成持续正向循环发展的良性生态。操作系统对底层计算、网络、存储、通信资源进行合理的封装,建立正确的应用规则,避免应用软件滥用。面向新的 Scale-Up 池化异构系统,操作系统如何兼容现有 POSIX 接口,享受新硬件和互联总线带来的性能提升,同时提供新的系统服务接口,客户应用便捷开发可高效利用异构融合算力,性能进一步提升。
04
-
异构融合调度,按照算力协同范围,分层构建 XPU 调度、CPU-XPU 协同调度,Scale-Up 域内调度三层关键技术,实现吞吐最优,发挥极致算力效率。 -
异构融合内存,纵向按照 HBM/DDR/SSD 异质内存融合管理,横向按照 Scale-Up 域内内存一致性共享,实现最佳数据效率。 -
异构融合通信,按照多路径融合并行通信,释放高性能通信能力,使能 Scale-Up 域内数据面通信加速。 -
异构融合存储,通过池化共享存储能力,实现 Scale-Up 域内数据共享,提供存储直访功能,减少 CPU 开销,实现极简高效存储提升性能。 -
异构融合虚拟化,基于算力、内存、设备虚拟化,提供细粒度虚拟资源管理能力,实现虚拟运行时内 Scale-Up 域内资源高效利用。
-
超容器引擎:兼容传统云原生应用,在不改变容器镜像内业务的情况下,在异构融合环境下可同时提供垂直弹性伸缩和水平弹性伸缩的能力,达成极致资源利用率。 -
负载感知服务:构建多层次负载亲和与资源拓扑感知机制,实现超节点域内算力的最优调配与能效平衡,提升资源利用率与任务性能。 -
高可靠服务:面向通智融合应用,在兼容现有 POSIX 接口基础上,通过新增系统级快照,任务状态迁移,跨节点恢复,故障主动预测和处理等接口,应用可以通过调用或配合高可靠服务减少计划内和计划外停机次数,缩短停机时间,整体提升系统的可靠性。 -
异构安全服务:在去中心化对等算力的异构融合场景下,传统以 CPU 为中心的单机安全信任边界被打破,计算系统的机密性、完整性和可用性都面临新的安全威胁。操作系统的安全服务需要提供分布式访问控制,异构完整性保护,异构机密计算等能力,解决身份仿冒,完整性破坏,数据窃取,攻击扩散四类威胁。
05

