大数跨境
0
0

超+智+图融合一体调度破解计算孤岛

超+智+图融合一体调度破解计算孤岛 景行锐创
2025-10-14
0
导读:景行超智图融合统一调度平台,助力企业实现计算资源的最优配置和研发效率的全面提升。

随着智能制造、数字孪生等技术的飞速发展,企业正面临超算仿真、AI训练推理与三维图形设计等多维度计算需求并存的挑战。景行超智图融合统一调度平台,正成为破解这一难题的金钥匙,助力企业实现计算资源的最优配置和研发效率的全面提升。

一、行业痛点:多维度计算需求下的三重困境

在当今数字化转型浪潮中,科研与工业计算领域正经历一场深刻变革。超算仿真计算、三维设计与人工智能训练推理等多种计算模式并存,但传统的计算基础设施往往相互孤立,形成数据孤岛,难以高效协同。

算力资源割裂成为首要难题。多学科联合仿真对异构算力资源的类型适配性与规模弹性需求差异显著,传统计算平台难以实现高效并行处理。航空工业、智能制造等领域的企业常常需要在超算仿真、三维设计渲染和AI训练推理三种模式间切换,传统建设的三种孤立系统导致计算资源利用率低下,严重影响研发效率。不同计算任务所需的软件环境和硬件配置存在差异,形成了资源隔离。工程师需要在不同平台间切换,不仅降低了工作效率,还增加了学习成本,技术适配与支持难题不容忽视。

二、产品优势:景行超智图融合平台的多方面创新

景行超智图融合统一调度平台基于景行资源管理与调度软件V6等产品构建,平台通过深度整合高性能计算(HPC)、人工智能(AI)和高性能图形渲染(HPG)的技术与服务,实现了数据、算法、业务、设施层面的超算、智算与渲染农场技术融合。

1.异构算力统一调度:智能分配,效率倍增

景行超智图融合平台采用自主创新的统一调度系统,具有以下核心特点:

● 智能资源感知:自动识别各类计算资源状态,实现动态分配。

● 跨平台协同管理:支持不同架构的混合部署和统一管理。

● 实时监控预警:可视化展示全平台资源使用状态,智能预测资源需求。

● 异构计算资源:CPU、GPU、NPU 等统一管理和调度,实现了计算资源利用率的最大化。

智能资源感知

作业数据监控

实时监控预警

2.三维图形设计和AI 推理训练

景行超智图融合平台深度集成自研三维图形远程可视化产品与自研 AI人工智能产品,形成独特的技术优势:

● 产品均完全自研,安全可控。

● 对交互式三维可视化任务给予更高优先级,确保用户体验流畅。

● 支持仿真计算、三维渲染与AI训练共享GPU资源,利用率提升60%。

● AI 作业调度:

    a. AI 多实例服务调度:

专为模型推理场景优化。支持高并发、高可用的推理服务部署,能够自动扩缩容推理实例以应对请求量的波动,并内置负载均衡器,将请求智能分发到各个健康实例,保证服务SLA。

    b. AI训练任务调度:支持断点续训和自动容错,避免长时间计算中断。

    c. 多种其他类型框架集成:

调度平台已成为连接各种计算框架的“通用总线”,无需为不同任务维护多套独立系统。

- HPC科学计算: 原生支持OpenMPI、MPICH、Intel MPI 等,满足传统高性能计算模拟需求。

- 机器学习/深度学习: 全面兼容 TensorFlow、PyTorch、PaddlePaddle、Caffe 等主流ML/DL框架,为AI研发提供强大算力支撑。

- 大模型推理训练:兼容DeepSpeed、PaddlePaddle、MindSpore、Vllm、SGlang、Vox-Box等国内外主流的多模态大模型训练和推理框架。

- 容器化应用: 深度集成 Docker 容器技术,实现应用环境的隔离、封装与一致性部署,简化依赖管理,提升研发效率。

三维可视化任务

AI训练任务

3.信创生态:国产化深度适配,自主可控,降本增效

随着国家对信息技术应用创新产业的持续推进,算力基础设施的国产化已成为保障产业安全发展的关键环节。

调度平台已完成与主流国产软硬件的全栈适配:

● 支持国产操作系统和处理器架构:包括银河麒麟、中科方德、中科红旗等国产操作系统。和海光、飞腾、龙芯、鲲鹏、申威等国产CPU 。

● 国产GPU/NPU加速卡:包括海光DCU、华为Atlas系列、寒武纪MLU系列、天数智芯GPU以及摩尔线程等国产加速硬件。

● 适配国内主流工业软件和AI框架。

● 提供完整的国产化解决方案。

4.混合云弹性调度:打破资源边界,实现成本与效率的最优解

平台通过自研的 Resource Broker(云网关) 核心组件,构建了统一的资源抽象层,实现了真正的“云地一体”智能化调度。

● 智能负载均衡:

云端 bursting(突发): 实时监控本地集群资源利用率与作业队列状态。当检测到本地资源饱和或作业积压时,自动、无缝地将排队作业转发至配置好的公有云(如阿里云、AWS)集群执行,有效应对业务峰值,确保研发进度不被资源瓶颈阻断。

● 弹性伸缩(Autoscaling):

自动扩容: 当云上资源也无法满足需求,作业长时间处于 PENDING 状态时,Resource Broker会主动触发云API,自动按需创建新的计算节点,迅速扩展算力池,化被动等待为主动应对。

智能缩容: 当云上集群负载下降,弹性资源空闲超过预设时间阈值后,系统会自动识别并释放闲置资源,避免不必要的成本浪费,真正实现 “按使用付费” ,显著降低总体拥有成本。

5.多维度 GPU 调度:

● 多厂商GPU混合调度:

支持在同一个集群中混合调度 NVIDIA、AMD、国产AI芯片(如寒武纪、昇腾等) 等不同品牌的异构加速卡。平台能自动识别硬件差异,并将作业调度到兼容的计算节点上。

● GPU显存细粒度剖分:

突破“一整张卡只能由一个作业独占”的限制。可将单块物理GPU的显存和计算核心进行划分,允许多个小型作业共享同一张GPU。这极大地提升了GPU利用率,特别适合模型调试、小型推理任务等场景。

● 容器 GPU热卸载/挂载:

支持在不中断在线业务的情况下,从运行中的节点容器安全地卸载GPU资源,并将其动态挂载给其他急需资源的任务使用。这实现了集群内GPU资源的动态再平衡,提升了资源调度的灵活性和效率。

 GPU 异常告警及下线:

7x24小时监控GPU的温度、功耗、ECC错误等关键健康指标。一旦检测到异常或故障,系统会自动触发告警,并可将问题GPU自动下线隔离,防止其导致作业失败。同时,自动将原计划调度到该GPU的任务重新分配到健康节点,保障业务连续性。

三、未来展望:构建超智图融合新生态

景行锐创正与合作伙伴共同推动超智图融合生态发展。未来将重点布局三个方向:

技术架构持续优化:研发下一代分布式调度引擎,支持10万级节点规模集群管理;深化AI与仿真技术融合,探索AI4Science新应用场景。

行业解决方案深化:针对航空航天、汽车制造、能源勘探等重点行业,开发专业化解决方案,深入行业核心业务场景。

生态系统拓展:与更多硬件厂商、软件开发商、系统集成商建立合作关系,共同打造从部件到系统软件到行业应用的全产业链生态体系。




点击下方“阅读原文”,了解更多景行讯息

↓↓↓



【声明】内容源于网络
0
0
景行锐创
分享景行锐创软件的产品和方案。
内容 242
粉丝 0
景行锐创 分享景行锐创软件的产品和方案。
总阅读118
粉丝0
内容242