大数跨境

鸿芯智算-创新型GPU算力单元技术解密:提升3倍以上推理效率!

鸿芯智算-创新型GPU算力单元技术解密:提升3倍以上推理效率! 诺亚鸿云
2026-06-10
3
导读:GPU节能延寿、GPU-RAID 高可用、GPU热插拔、GPU异构融合、Bluelink高速互联。
芯片、系统和软件是计算机体系结构的三大关键要素。只有在体系结构层面进行高维度的创新,才能打破成本、效率、灵活性“不可能三角”的魔咒,让GPU发挥更大算力效率,同时更具成本优势和灵活的适应性。

鸿芯智算-构建先进的智算体系结构:冯诺依曼体系已无法支撑新型智算架构的发展

随着大数据分析、AI计算等应用对算力需求巨大,在分布式系统中,大模型训练对算力基础设施的要求从单卡拓展到了集群层面,这对大规模卡间互联的兼容性、传输效率、时延等指标提出了更高的要求。

传统:GPU-CPU直连架构


冯诺依曼架构的基本特征是,CPU 与内存之间通过统一总线交互指令与数据,这在智算场景中引发多重问题  

 Ø传统架构核心组成:CPU + 内存+ I/O设备  

 Ø数据流路径:所有计算与数据传输都需经过CPU与内存  

 Ø瓶颈本质:计算与存储分离,数据搬运成本高,带宽与延迟成为限制因素 

GPU智算的兴起与架构冲突  

 ØGPU的优势:高并行度、强算力,适用于AI训练与推理  

 Ø但GPU无法独立调度任务需依赖CPU发起指令,参数与数据需通过内存中转,增加延迟与资源占用

 ØPCIe作为连接通道,带宽远低于GPU内部算力需求,形成“算力孤岛” 

性能瓶颈的具体表现:1 + 1 ≠ 2  

 Ø算力无法线性叠加:GPU算力虽强,但受限于CPU调度与内存中转,整体性能提升受阻  

 ØPCIe带宽滞后:GPU与CPU之间的数据传输受限于PCIe速率,即使GPU性能翻倍,带宽不足也无法充分发挥其潜力  

 Ø资源浪费与能效下降:大量GPU资源处于等待状态,整体系统效率低下

国产GPU的生态系统不完善,直接影响国产GPU的应用和推广。

结论与转折:呼唤新型智算架构。
冯诺依曼架构强调统一的存储与处理路径,适用于通用计算,但在AI与高性能计算中存在“存储墙”与“带宽瓶颈”, 导致数据搬运成为性能瓶颈。冯诺依曼体系不再适用智算时代,架构革新是释放GPU算力的关键。异构计算、Chiplet架构、内存统一架构等新技术!

鸿芯智算:创新GPU互联架构

通过加速卡+NVME构建独立的分布式数据加速平台,不占用CPU资源,满足数据/模型快速加载、交互;通过高带宽的互联协议供GPU近线使用。

卡间速率达到500GB/s,节点间速率达到400Gbps

模组可以实现不同品牌、型号GPU卡的混插,内置驱动与主流GPU卡适配实现拉通国产GPU生态目的。

通过鸿芯智算自研XR-AIOS枢纽平台可按照业务或任务需要进行卡级资源调度,还可以调度异构GPU卡进行混卡推理和混卡训练,提高智算资源的使用效率的同时,降低了使用难度。

鸿芯智算:关键组件

P系列:HCP-48 8颗GPU卡

AGC系列:AGC64F 64颗GPU芯片

提供丰富的模块化“通算单元”可选项

鸿芯智算-创新型GPU算力单元的设计理念:


大规模智集群计高性能点之,鸿芯智算的专团队不仅虑了极的算力密度,极AI能效,极简交付部署特点等素,还包括长久来吸收的项目交经验,客户在智场景许多痛点的识,我们特别遵了以下的设计考

自主可控规避可能现的IP争议战略的保产品续迭的稳

 ØARM架构AMDIP传承分支NOWay

 Ø确保GPU基础平台的知识产权的绝对无争议。

数据流带宽必须符合当最先进互联技术

 Ø卡与卡GPU间的数据流动,必须突破PCIe限制。

 ØGPU节点间的数据流动,需要规避CPUtoRAM开销,做到物理卸载,P2P则是优先值得考虑的优势。

积极的为算信生态献力,整GPU力池并使相容

 Ø通过有效的技术手段,促使各厂商的GPU能够在相容的模式提供算力服务。之后,通过统一的框架适配广泛的模型。

避免硬件商对一品的绑,充保护户的资,保智平台供广GPU兼容性

调度的灵性与富的略,务处GPU之间可支“一一”“一多”

提供一式交付平台:

 Ø开箱即用,定位于打造AI领域的搜索引擎,构建算力+模型+数据的运营闭环的智算公共服务平台。涵盖AI开发全流程,包含数据集、模型开发、训练、管理、部署功能,可灵活使用其中一个或多个功能。

 Ø平台内置多种预置模型,提供优质开源数据和精准模型索引,支持按照用户需求选择最优资源,简单操作快速训练出自己的模型。

鸿芯智算-AI大模型一体机的独特的全球首创、行业唯一的创新特性
GPU节能延寿:AI BMC智能管理,降低运营成本
 Ø采用更加精细的多模块单元异步管理技术,以GPU卡/GPU芯片为单位,休眠特性最低可到10W/芯。

 Ø使GPU模块能够在满负荷与休眠状态下自适应运行,具备先进的唤醒机制。

 Ø整机最小化电力消耗可达几百瓦,有效的降低智算运营的电力投入。

 Ø同时,间接降低冷却系统投入。更大的延长GPU使用周期。

GPU-RAID 高可用:提升业务连续性 

 Ø创新特性AGC架构实现了基于GPU-RAID模式的硬件级冗余。当系统监测到任意一张GPU计算节点发生硬件故障、性能劣化或通信中断时,嵌的智能故障转移引擎将即刻触发。障了关键算力服务的SLA,为核心生产系统提供了关键可靠性。
 Ø内唯一实现硬件级算力冗余的方案,终结“一卡故障、全池瘫痪”的行业顽疾,将单机可用性提升至99.99%,从根源上保障大模型训练等关键任务的连续性,标志着国产智算可靠性达到国际领先水平。

GPU热插拔:提升运维连续性

 Ø创新特性支持GPU热插拔特性,支持在7*24小时不间断运行的环境中,对任意GPU单元实时带电热插拔操作,将运维时间从小时级缩短至分钟,达成SLA保障级别的无缝运维与业务永续能力。
 Ø全球唯一实现“不停机维护”的智算方案,使大规模集群运维效率实现代际跨越,为绿色算力中心建设提供了“中国方案”。

GPU异构融合:提升灵活性

 Ø创新特性支持多个品牌国产在同一个节点,服务同一个大模型,并提供丰富的任务调度策略,GPU池化特性,多个GPU可聚合成算力池。
 Ø技术路线采用开放体系,与配套的自研XR-AIOS枢纽平台结合,支持异构卡级调度,支持单一模型异构算力混合推理和混合训练,同时拉通国内外各GPU厂家驱动,方便多厂商多卡的大模型部署,减少部署工作量,具有实用价值。

Bluelink高速互联:提升传输效能

 Ø创新特性将传统PCIe通信升级为1TB带宽高速信号连接器,提升传输效能。通过高性能并行处理策略和低延迟高带宽互连技术(PCIE上增加P2P协议压缩传输),深度融合加速硬件与算法设计,实现数据在不同的物理服务器快速、准确地传输,极大提升卡间互联速率和节点间互联速率,卡间和节点间的数据交互由扩展底版和数据加速单元完成,不消耗CPU和内存处理资源,大幅度提高了国产GPU有效算力。
 Ø全球领先的基于Micro-LED光互连的独特技术路线,一举突破传统铜互连的带宽与距离双重瓶颈,为万卡级乃至十万卡级AI集群提供自主可控的超高速互联底座,直击我国AI算力“互联封锁”的卡脖子要害。

鸿芯智算-行业认可


信部所测试:

性能符合信创要,可升信服务10倍左右,满足并发用在信创设备运 行的需求。


信集研究院:

XR-AIOS枢纽平台可行异卡级度,GPU卡互联速,GPU速度 44.87%,图像生成速度升41.2%,间互速率561.5GB/s,点间互速率400Gb/s。部提升,属国内首创。


移动究院:

读写均提3,IOPS性能均提升14现完卸载算节CPU和内 存资源,大大增加

部署务所用计算源量并且ARM计算节环境,支持X86构资源的能力。对信

创服务加速果明,具良好信创配,能和全性符合求。


浪潮测试:

使Llama2-70B-instruct百川2-13B-Chat两个试,国产GPU效算提升40%,使国产GPU有效力发达到80%,卡间秒生成token80个,机每秒token数1000-2000,高于浪潮试的他国设备智算平建设要,明确有4项明显优:1、单务器异构算力 融合;2、信服务器GPU驱动管理;3、单模型构算推理;4、GPU力网业务网隔离管理。


百度测
MGP-820ls基于国产深度学习框架飞桨(PaddlePaddle),完整支持ERNIE-4.5-300B-A47B大模型推理任务,其精度与百度官方标准对齐,充分验证了产品在国产软硬件生态中的技术成熟度。

鸿芯智算-竞品对比:(20卡为例)

更多价格参考:


更多详情:


AI 智算体系架构革新者,1台=4台的性能,1台成本可节约88%
36个理由让您选择-国产化全信创鸿芯智算大模型一体机


“国产 GPU 的未来,不只是硬件突破,更是生态完善。鸿芯智算-致力于为国产算力构建真正可持续的应用基础。让每一瓦国产算力,都能被充分释放。”

【声明】内容源于网络
0
0
诺亚鸿云
专注于全信创鸿芯智算大模型一体机、HX-IPU数据加速单元/分布式存储、HX-DataCore超融合/双活/全闪存存储、云桌面/云终端、等自主可控系列硬件产品及企业数智化转型晓软AI+软件产品的集成、研发、运维、咨询服务。
内容 11
粉丝 0
诺亚鸿云 专注于全信创鸿芯智算大模型一体机、HX-IPU数据加速单元/分布式存储、HX-DataCore超融合/双活/全闪存存储、云桌面/云终端、等自主可控系列硬件产品及企业数智化转型晓软AI+软件产品的集成、研发、运维、咨询服务。
总阅读1
粉丝0
内容11