大数跨境

迈向下一代智算体系,AGC为何会成为必经之路!

迈向下一代智算体系,AGC为何会成为必经之路! 诺亚鸿云
2026-01-04
2
导读:白皮书:了解下一代智算体系平台的技术理念!!


随之2025年8月份国务院发布的《深入实施“人工智能+”行动的意见》已经详细明确基建智能化的任务与阶段。另外,刚刚发布的《十五五规划建议》中,都能说明人工智能的产业成为信息化发展的首要战略。那么重点,如何快速切入“人工智能的产业”成为每一个供应商快速转型所迫切需求的抓手。

现在我们再来聊聊构成人工智能的关键要素:智算底座!
当前的“智算产业”众多的产品体系,可视为普遍是基于传统“通算产业”改装的底座,而“通算“即是我们经营了几十年:服务器,存储,网络,云及大数据的底座。那么被沿用数十年的“通算”仍然适用于“智算底座”的就地改造吗?
随之企业大举迈向人工智能,算力的提升不能再依靠单张GPU卡的性能,
更多时候需要多颗GPU卡组合算力资源。在系统内部,多颗GPU之间的通信带宽往常在几十GB/s以上,PCIe总线的数据传输速率很容易成为瓶颈,且传统的PCIe线路接口的串并转换会产生较大的延迟,极大降低GPU之间并行效率和性能。PCIe Switch在接收GPU发出的信号之后进行数据处理,CPU则负责数据的分发和调度,这些都会引发额外的网络延迟,限制了智算系统的性能。

传统的计算体系,数十年延续了“冯诺·依曼”架构,其基本特征是:CPU 与内存之间通过统一总线交互指令与数据,这在智算场景中引发多重问题:
  • 传统架构核心组成:CPU + 内存 + I/O设备
  • 数据流路径:所有计算与数据传输都需经过 CPU 与内存
  • 瓶颈本质:计算与存储分离,数据搬运成本高,带宽与延迟成为限制因素

为了更聚焦问题,我们以PCIe GPU智算卡单一实例来论述:
这里以消费级RTX 4090 智算卡为例,其具备1.6万颗可供CUDA编译与驱使的算力核心,单个核心>2.2MHz,而带宽更是超过了1TB/s…问题是,一旦安装在传统服务器(PCIe)那么将不可避免的成为“冯诺·依曼”体系的一部分,所有计算和数据传输都要经过CPU和内存,从而迫使1.6万颗CUDA Core和存储(显存)分离,造成了数据搬运成本高,数以万计的Core's在空转,以及面对总线带宽与延迟带来的瓶颈因素。
因此,为了提升GPU之间的通信性能,当今智算领域的龙头厂商NVIDIA推出了GPU Direct、P2P等先进的通信技术,使GPU相互之间可通过PCIe访问显存,极大地降低了通过CPU与RAM Buffer中转带来的延迟。但仍然受限PCI Express总线协议和拓扑的限制,却无法做到更高的带宽。此后,NVIDIA又进一步提出了NVLink总线协议。

另一方面:构建国产化智算体系无法避免的需要权衡(国产)处理器的性能,因为上述已经阐述了GPU智算卡属于高性能的计算机部件,那么就不可避免的需要以CPU为核心计算体系对等的配合,例如具备更宽的总线,PCIe通道5.0还是6.0?,尤其是CPU的Line数量(即PCIe通道数/总线资源)直接决定了GPU在智算整机中的带宽、互联效率和扩展能力。它影响GPU数量上限、数据传输速度、任务调度效率以及整体系统的稳定性和成本结构…等等,这一系列的客观因素会导致想要构建全国产化的智算体系,需要强依赖国产C86处理器快速迭代,以满足类似x86的性能,要等待ARM-CPU快速的获得国外的授权、还需要RISC-V生态体系的快速成熟……否则,构建的全信创智算整机无法在市场获得竞争力,同时根本无法发挥GPU的性能。这也是为什么您在市场看到的智算整机,哪怕GPU是国产制造的,而CPU与内存等通算部分仍然是基于领先的Intel或AMD的体系。

由此可见,智算行业正在呼唤新型智算架构!
冯诺依曼架构强调统一的存储与处理路径,适用于通用计算,但在AI与高性能计算中存在“存储墙”与“带宽瓶颈”,导致数据搬运成为性能瓶颈,它不再适用智算时代,架构革新是释放GPU算力的关键。异构计算、Chiplet架构、内存统一架构等新技术正在成为未来趋势!
  • Intel Gaudi与Falcon Shores也在推进GPU主导的AI加速架构
  • AMD MI300系列融合GPU与CPU于单一封装,强调统一内存访问与高带宽
  • Google TPU系列也采用非冯诺依曼架构,强调矩阵乘法加速器与高效内存访问
  • NVLink/NVSwitch 构建的 GPU 网络,本质上是“存算一体”的尝试,提升数据就近计算能力
  • 最新的 Blackwell 架构支持数百个 GPU 芯片协同工作,构建“GPU为中心”的智算集群
这些架构都强调GPU主导计算、CPU辅助调度、内存与互联优化,构成异构智算体系。
最终结论:现代GPU架构逐渐倾向异构设计,强调并行处理、数据局部性与高带宽互联,逐步摆脱冯诺依曼的限制。

坦白的讲,我们当然知道基于现有的底盘(通算)去打造一台车相对容易,并且可以快速的切入市场,并获得订单。然而:当你希望这台车足够的轻量化,足够的快速,企图超越当前最快的跑车?那么现有的通用型底盘会很快到达瓶颈,因为“通用”意味着符合普遍的适用性:载物载重,顾及家用成本,越野能力…其纵深的延展性极大的被限制而且很快会到达瓶颈。

我们深知产品的瓶颈会始终伴随企业的发展瓶颈。现在,鸿芯智算选择了一条更艰难的技术路线,即:摒弃厂商普遍采用的通用型架构,我们选择了去重塑一套新的架构,旨在打造符合客户需求的产品,以及构建持续的企业发展战略。

鸿芯智算科技有限公司-理念:基于AGC体系结构(AI computer system with the GPU at its Core),颠覆以往通算底座构建的智算体系、打造下一代创新型智算平台!

在该理念中强调是“Bypass”通算中的CPURAM,构建“以GPU为核心”的AGC智算体系,让GPU PCIe智算卡或智算芯片能够火力全开的发挥效能。新型的智算体系性能发挥不再依赖于CPU调度、内存的中转,类似您在MGP-820ls产品看到的那样,我们使用1CPU即可全速运行20颗通用型PCIe GPU而无需特殊改装,而在我们的AWS P4中,仅仅使用ASIC(专用集成电路)便可以全速运行4颗标准的PCIe GPUs智算卡。未来,我们会围绕这一技术理念持续深耕,尝试通过类似智能BMC技术,完全摒弃被沿用数十年的“冯诺·依曼”计算体系,试图打造更加纯粹的AGC智算体系。

值得一提的是,AGC技术理念并非是我们的终点,而更像是一艘航空母舰,或是下一代创新型智算无数创意实现的跳板。我们期望在AGC的航母上面构建各式各样的战斗机,轰炸机,预警机…AGC最终会成为鸿芯在智算体系结构中无数有效价值创意的创作平台。

促使一个企业保持持续的生命力关键的因素之一:便是有一个符合商业化,长久战略的公司理念。该理念在内部是创始团队走到一起,凝聚力的核心源泉,对外则是“辐射”生态和伙伴,获得更多共识的触手。这也是缔造一个科技企业的原始动力。

在此,期望更多的有识之士能够加入我们的生态,在技术路线和智算体系发展的理念上获得更多共识!



“国产 GPU 的未来,不只是硬件突破,更是生态完善。鸿芯智算-致力于为国产算力构建真正可持续的应用基础。让每一瓦国产算力,都能被充分释放。”

鸿芯智算(深圳)科技有限公司,专注于全信创鸿芯智算大模型一体机、HX-IPU数据加速单元/分布式存储、HX-DataCore超融合/双活/全闪存存储、云桌面/云终端、等自主可控系列硬件产品及企业数智化转型晓软AI+软件产品的集成、研发、运维、咨询服务。

公司以“硬件+软件”双轮驱动为核心战略,在我们的晓软工研院核心研发基地,汇聚了一批充满激情的硬件研发团队,在存储系统研发,电子电路设计,AI与智算领域有超过15+年研发经验,上线的产品已经过多年的市场打磨,并承载诸多企业客户的核心业务系统。公司同时拥有强大软件研发团队,专注于为企业提供前沿的智能化解决方案,服务涵盖数智化工厂建设、智能智造系统集成研发、工业数据分析和人工智能应用等方面,致力于人工智能、数字智造深度创新和落地。



【声明】内容源于网络
0
0
诺亚鸿云
专注于全信创鸿芯智算大模型一体机、HX-IPU数据加速单元/分布式存储、HX-DataCore超融合/双活/全闪存存储、云桌面/云终端、等自主可控系列硬件产品及企业数智化转型晓软AI+软件产品的集成、研发、运维、咨询服务。
内容 11
粉丝 0
诺亚鸿云 专注于全信创鸿芯智算大模型一体机、HX-IPU数据加速单元/分布式存储、HX-DataCore超融合/双活/全闪存存储、云桌面/云终端、等自主可控系列硬件产品及企业数智化转型晓软AI+软件产品的集成、研发、运维、咨询服务。
总阅读1
粉丝0
内容11