鸿芯智算-创新型GPU算力单元技术解密：提升3倍以上推理效率！- 大数跨境

首页

鸿芯智算-创新型GPU算力单元技术解密：提升3倍以上推理效率！

诺亚鸿云

2026-06-10

导读：GPU节能延寿、GPU-RAID 高可用、GPU热插拔、GPU异构融合、Bluelink高速互联。

芯片、系统和软件是计算机体系结构的三大关键要素。只有在体系结构层面进行高维度的创新，才能打破成本、效率、灵活性“不可能三角”的魔咒，让GPU发挥更大算力效率，同时更具成本优势和灵活的适应性。

鸿芯智算-构建先进的智算体系结构：冯诺依曼体系已无法支撑新型智算架构的发展

随着大数据分析、AI计算等应用对算力需求巨大，在分布式系统中，大模型训练对算力基础设施的要求从单卡拓展到了集群层面，这对大规模卡间互联的兼容性、传输效率、时延等指标提出了更高的要求。

传统：GPU-CPU直连架构

◆冯诺依曼架构的基本特征是，CPU 与内存之间通过统一总线交互指令与数据，这在智算场景中引发多重问题： 

Ø传统架构核心组成：CPU + 内存+ I/O设备 

Ø数据流路径：所有计算与数据传输都需经过CPU与内存 

Ø瓶颈本质：计算与存储分离，数据搬运成本高，带宽与延迟成为限制因素

◆GPU智算的兴起与架构冲突 

ØGPU的优势：高并行度、强算力，适用于AI训练与推理 

Ø但GPU无法独立调度任务需依赖CPU发起指令，参数与数据需通过内存中转，增加延迟与资源占用

ØPCIe作为连接通道，带宽远低于GPU内部算力需求，形成“算力孤岛”

◆性能瓶颈的具体表现：1 + 1 ≠ 2 

Ø算力无法线性叠加：GPU算力虽强，但受限于CPU调度与内存中转，整体性能提升受阻 

ØPCIe带宽滞后：GPU与CPU之间的数据传输受限于PCIe速率，即使GPU性能翻倍，带宽不足也无法充分发挥其潜力 

Ø资源浪费与能效下降：大量GPU资源处于等待状态，整体系统效率低下

◆国产GPU的生态系统不完善，直接影响国产GPU的应用和推广。

结论与转折：呼唤新型智算架构。

冯诺依曼架构强调统一的存储与处理路径，适用于通用计算，但在AI与高性能计算中存在“存储墙”与“带宽瓶颈”，导致数据搬运成为性能瓶颈。冯诺依曼体系不再适用智算时代，架构革新是释放GPU算力的关键。异构计算、Chiplet架构、内存统一架构等新技术！

鸿芯智算：创新GPU互联架构

◆通过加速卡+NVME构建独立的分布式数据加速平台，不占用CPU资源，满足数据/模型快速加载、交互；通过高带宽的互联协议供GPU近线使用。

◆卡间速率达到500GB/s，节点间速率达到400Gbps。

◆模组可以实现不同品牌、型号GPU卡的混插，内置驱动与主流GPU卡适配实现拉通国产GPU生态目的。

◆通过鸿芯智算自研XR-AIOS枢纽平台可按照业务或任务需要进行卡级资源调度，还可以调度异构GPU卡进行混卡推理和混卡训练，提高智算资源的使用效率的同时，降低了使用难度。

鸿芯智算：关键组件

P系列：HCP-48 8颗GPU卡

AGC系列：AGC64F 64颗GPU芯片

提供丰富的模块化“通算单元”可选项

鸿芯智算-创新型GPU算力单元的设计理念：

在为大规模智算集群设计高性能节点之初，鸿芯智算的专家团队不仅考虑了极致的算力密度，极高的AI能效，极简的交付部署特点等因素，还包括长久以来吸收的项目交付经验，客户在智算场景许多痛点的共识，我们特别遵循了以下的设计考量：

◆自主可控，规避有可能出现的任何IP产权的争议，战略性的保持产品持续迭代的稳定性

ØARM架构？AMDIP传承分支？NOWay！

Ø确保GPU与基础平台的知识产权的绝对无争议。

◆数据流动带宽必须符合当前最先进互联技术

Ø卡与卡（GPU）间的数据流动，必须突破PCIe限制。

ØGPU节点间的数据流动，需要规避CPUtoRAM开销，做到物理卸载，P2P则是优先值得考虑的优势。

◆积极的为智算信创生态贡献力量，整合异构GPU算力池，并使其相容

Ø通过有效的技术手段，促使各厂商的GPU能够在相容的模式提供算力服务。之后，通过统一的框架适配广泛的模型。

◆避免硬件厂商对单一品牌的绑定，充分保护客户的投资，确保智算平台提供广泛的GPU兼容性

◆调度的灵活性与丰富的策略，任务处理与GPU之间可支持“一对一”、“一对多”

◆提供一站式交付平台：

Ø开箱即用，定位于打造AI领域的搜索引擎，构建算力+模型+数据的运营闭环的智算公共服务平台。涵盖AI开发全流程，包含数据集、模型开发、训练、管理、部署功能，可灵活使用其中一个或多个功能。

Ø平台内置多种预置模型，提供优质开源数据和精准模型索引，支持按照用户需求选择最优资源，简单操作快速训练出自己的模型。

鸿芯智算-AI大模型一体机的独特的全球首创、行业唯一的创新特性

◆GPU节能延寿：AI BMC智能管理，降低运营成本

Ø采用更加精细的多模块单元异步管理技术，以GPU卡/GPU芯片为单位，休眠特性最低可到10W/芯。

Ø使GPU模块能够在满负荷与休眠状态下自适应运行，具备先进的唤醒机制。

Ø整机最小化电力消耗可达几百瓦，有效的降低智算运营的电力投入。

Ø同时，间接降低冷却系统投入。更大的延长GPU使用周期。

◆GPU-RAID 高可用：提升业务连续性

Ø创新特性基于AGC架构实现了基于GPU-RAID模式的硬件级冗余。当系统监测到任意一张GPU计算节点发生硬件故障、性能劣化或通信中断时，内嵌的智能故障转移引擎将即刻触发。保障了关键算力服务的SLA,为核心生产系统提供了关键可靠性。

Ø国内唯一实现硬件级算力冗余的方案，终结“一卡故障、全池瘫痪”的行业顽疾，将单机可用性提升至99.99%，从根源上保障大模型训练等关键任务的连续性，标志着国产智算可靠性达到国际领先水平。

◆GPU热插拔：提升运维连续性

Ø创新特性支持GPU热插拔特性，支持在7*24小时不间断运行的环境中，对任意GPU单元实时带电热插拔操作，将运维时间从小时级缩短至分钟，达成SLA保障级别的无缝运维与业务永续能力。

Ø全球唯一实现“不停机维护”的智算方案，使大规模集群运维效率实现代际跨越，为绿色算力中心建设提供了“中国方案”。

◆GPU异构融合：提升灵活性

Ø创新特性支持多个品牌国产在同一个节点，服务同一个大模型，并提供丰富的任务调度策略，GPU池化特性，多个GPU可聚合成算力池。

Ø技术路线采用开放体系，与配套的自研XR-AIOS枢纽平台结合，支持异构卡级调度，支持单一模型异构算力混合推理和混合训练，同时拉通国内外各GPU厂家驱动，方便多厂商多卡的大模型部署，减少部署工作量，具有实用价值。

◆Bluelink高速互联：提升传输效能

Ø创新特性将传统PCIe通信升级为1TB带宽高速信号连接器，提升传输效能。通过高性能并行处理策略和低延迟高带宽互连技术（PCIE上增加P2P协议压缩传输），深度融合加速硬件与算法设计，实现数据在不同的物理服务器快速、准确地传输，极大提升卡间互联速率和节点间互联速率，卡间和节点间的数据交互由扩展底版和数据加速单元完成，不消耗CPU和内存处理资源，大幅度提高了国产GPU有效算力。

Ø全球领先的基于Micro-LED光互连的独特技术路线，一举突破传统铜互连的带宽与距离双重瓶颈，为万卡级乃至十万卡级AI集群提供自主可控的超高速互联底座，直击我国AI算力“互联封锁”的卡脖子要害。

鸿芯智算-行业认可：

◆工信部一所测试：

核心性能符合信创要求，可提升信创服务器性能10倍左右，满足高并发应用在信创设备运行的需求。

◆电信集团研究院：

XR-AIOS枢纽平台可进行异构卡级调度，可对国产GPU卡间互联加速，提升GPU推理速度 44.87%，图像生成速度提升41.2%，卡间互联速率561.5GB/s，节点间互联速率400Gb/s。部署效率提升，属国内首创。

◆中移动苏州研究院：

读写带宽性能平均提升3倍，IOPS性能平均提升14倍，实现完全卸载计算节点CPU和内存资源，大大增加

部署业务所需的可用计算资源量，并且在ARM主机计算节点环境下，支持创建X86架构资源的能力。对信

创服务器加速效果明显，具有良好的信创适配，功能和安全性均符合要求。

◆浪潮测试：

使用Llama2-70B-instruct和百川2-13B-Chat两个模型测试，国产GPU卡有效算力提升40%，使国产GPU卡有效算力发挥达到80%，卡间每秒生成token数80个，整机每秒生产token数1000-2000个，高于浪潮测试的其他国产设备，满足智算平台建设需要，且明确产品具有4项明显优势：1、单服务器异构算力融合；2、信创服务器GPU免驱动管理；3、单一模型异构算力混合推理；4、GPU算力网与业务网隔离管理。