迈向下一代智算体系，AGC为何会成为必经之路！- 大数跨境

诺亚鸿云

2026-01-04

导读：白皮书：了解下一代智算体系平台的技术理念！！

随之2025年8月份国务院发布的《深入实施“人工智能+”行动的意见》已经详细明确基建智能化的任务与阶段。另外，刚刚发布的《十五五规划建议》中，都能说明人工智能的产业成为信息化发展的首要战略。那么重点，如何快速切入“人工智能的产业”成为每一个供应商快速转型所迫切需求的抓手。

现在我们再来聊聊构成人工智能的关键要素：智算底座！

当前的“智算产业”众多的产品体系，可视为普遍是基于传统“通算产业”改装的底座，而“通算“即是我们经营了几十年：服务器，存储，网络，云及大数据的底座。那么被沿用数十年的“通算”仍然适用于“智算底座”的就地改造吗？

随之企业大举迈向人工智能，算力的提升不能再依靠单张GPU卡的性能，

更多时候需要多颗GPU卡组合算力资源。在系统内部，多颗GPU之间的通信带宽往常在几十GB/s以上，PCIe总线的数据传输速率很容易成为瓶颈，且传统的PCIe线路接口的串并转换会产生较大的延迟，极大降低GPU之间并行效率和性能。PCIe Switch在接收GPU发出的信号之后进行数据处理，CPU则负责数据的分发和调度，这些都会引发额外的网络延迟，限制了智算系统的性能。

传统的计算体系，数十年延续了“冯诺·依曼”架构，其基本特征是：CPU 与内存之间通过统一总线交互指令与数据，这在智算场景中引发多重问题：

传统架构核心组成：CPU + 内存 + I/O设备
数据流路径：所有计算与数据传输都需经过 CPU 与内存
瓶颈本质：计算与存储分离，数据搬运成本高，带宽与延迟成为限制因素

为了更聚焦问题，我们以PCIe GPU智算卡单一实例来论述：

这里以消费级RTX 4090 智算卡为例，其具备1.6万颗可供CUDA编译与驱使的算力核心，单个核心＞2.2MHz，而带宽更是超过了1TB/s…问题是，一旦安装在传统服务器（PCIe）那么将不可避免的成为“冯诺·依曼”体系的一部分，所有计算和数据传输都要经过CPU和内存，从而迫使1.6万颗CUDA Core和存储（显存）分离，造成了数据搬运成本高，数以万计的Core's在空转，以及面对总线带宽与延迟带来的瓶颈因素。

因此，为了提升GPU之间的通信性能，当今智算领域的龙头厂商NVIDIA推出了GPU Direct、P2P等先进的通信技术，使GPU相互之间可通过PCIe访问显存，极大地降低了通过CPU与RAM Buffer中转带来的延迟。但仍然受限PCI Express总线协议和拓扑的限制，却无法做到更高的带宽。此后，NVIDIA又进一步提出了NVLink总线协议。

另一方面：构建国产化智算体系无法避免的需要权衡（国产）处理器的性能，因为上述已经阐述了GPU智算卡属于高性能的计算机部件，那么就不可避免的需要以CPU为核心计算体系对等的配合，例如具备更宽的总线，PCIe通道5.0还是6.0？，尤其是CPU的Line数量（即PCIe通道数/总线资源）直接决定了GPU在智算整机中的带宽、互联效率和扩展能力。它影响GPU数量上限、数据传输速度、任务调度效率以及整体系统的稳定性和成本结构…等等，这一系列的客观因素会导致想要构建全国产化的智算体系，需要强依赖国产C86处理器快速迭代，以满足类似x86的性能，要等待ARM-CPU快速的获得国外的授权、还需要RISC-V生态体系的快速成熟……否则，构建的全信创智算整机无法在市场获得竞争力，同时根本无法发挥GPU的性能。这也是为什么您在市场看到的智算整机，哪怕GPU是国产制造的，而CPU与内存等通算部分仍然是基于领先的Intel或AMD的体系。

由此可见，智算行业正在呼唤新型智算架构！

冯诺依曼架构强调统一的存储与处理路径，适用于通用计算，但在AI与高性能计算中存在“存储墙”与“带宽瓶颈”，导致数据搬运成为性能瓶颈，它不再适用智算时代，架构革新是释放GPU算力的关键。异构计算、Chiplet架构、内存统一架构等新技术正在成为未来趋势！

Intel Gaudi与Falcon Shores也在推进GPU主导的AI加速架构
AMD MI300系列融合GPU与CPU于单一封装，强调统一内存访问与高带宽
Google TPU系列也采用非冯诺依曼架构，强调矩阵乘法加速器与高效内存访问
NVLink/NVSwitch 构建的 GPU 网络，本质上是“存算一体”的尝试，提升数据就近计算能力
最新的 Blackwell 架构支持数百个 GPU 芯片协同工作，构建“GPU为中心”的智算集群

这些架构都强调GPU主导计算、CPU辅助调度、内存与互联优化，构成异构智算体系。

最终结论：现代GPU架构逐渐倾向异构设计，强调并行处理、数据局部性与高带宽互联，逐步摆脱冯诺依曼的限制。

坦白的讲，我们当然知道基于现有的底盘（通算）去打造一台车相对容易，并且可以快速的切入市场，并获得订单。然而：当你希望这台车足够的轻量化，足够的快速，企图超越当前最快的跑车？那么现有的通用型底盘会很快到达瓶颈，因为“通用”意味着符合普遍的适用性：载物载重，顾及家用成本，越野能力…其纵深的延展性极大的被限制而且很快会到达瓶颈。

我们深知产品的瓶颈会始终伴随企业的发展瓶颈。现在，鸿芯智算选择了一条更艰难的技术路线，即：摒弃厂商普遍采用的通用型架构，我们选择了去重塑一套新的架构，旨在打造符合客户需求的产品，以及构建持续的企业发展战略。

鸿芯智算科技有限公司-理念：基于AGC体系结构（AI computer system with the GPU at its Core），颠覆以往通算底座构建的智算体系、打造下一代创新型智算平台！

在该理念中强调是“Bypass”通算中的CPU、RAM，构建“以GPU为核心”的AGC智算体系，让GPU PCIe智算卡或智算芯片能够火力全开的发挥效能。新型的智算体系性能发挥不再依赖于CPU调度、内存的中转，类似您在MGP-820ls产品看到的那样，我们使用1颗CPU即可全速运行20颗通用型PCIe GPU而无需特殊改装，而在我们的AWS P4中，仅仅使用ASIC（专用集成电路）便可以全速运行4颗标准的PCIe GPUs智算卡。未来，我们会围绕这一技术理念持续深耕，尝试通过类似智能BMC技术，完全摒弃被沿用数十年的“冯诺·依曼”计算体系，试图打造更加纯粹的AGC智算体系。

值得一提的是，AGC技术理念并非是我们的终点，而更像是一艘航空母舰，或是下一代创新型智算无数创意实现的跳板。我们期望在AGC的航母上面构建各式各样的战斗机，轰炸机，预警机…AGC最终会成为鸿芯在智算体系结构中无数有效价值创意的创作平台。

促使一个企业保持持续的生命力关键的因素之一：便是有一个符合商业化，长久战略的公司理念。该理念在内部是创始团队走到一起，凝聚力的核心源泉，对外则是“辐射”生态和伙伴，获得更多共识的触手。这也是缔造一个科技企业的原始动力。

在此，期望更多的有识之士能够加入我们的生态，在技术路线和智算体系发展的理念上获得更多共识！

“国产 GPU 的未来，不只是硬件突破，更是生态完善。鸿芯智算-致力于为国产算力构建真正可持续的应用基础。让每一瓦国产算力，都能被充分释放。”

鸿芯智算（深圳）科技有限公司，专注于全信创鸿芯智算大模型一体机、HX-IPU数据加速单元/分布式存储、HX-DataCore超融合/双活/全闪存存储、云桌面/云终端、等自主可控系列硬件产品及企业数智化转型晓软AI+软件产品的集成、研发、运维、咨询服务。

公司以“硬件+软件”双轮驱动为核心战略，在我们的晓软工研院核心研发基地，汇聚了一批充满激情的硬件研发团队，在存储系统研发，电子电路设计，AI与智算领域有超过15+年研发经验，上线的产品已经过多年的市场打磨，并承载诸多企业客户的核心业务系统。公司同时拥有强大软件研发团队，专注于为企业提供前沿的智能化解决方案，服务涵盖数智化工厂建设、智能智造系统集成研发、工业数据分析和人工智能应用等方面，致力于人工智能、数字智造深度创新和落地。

【声明】内容源于网络

诺亚鸿云

专注于全信创鸿芯智算大模型一体机、HX-IPU数据加速单元/分布式存储、HX-DataCore超融合/双活/全闪存存储、云桌面/云终端、等自主可控系列硬件产品及企业数智化转型晓软AI+软件产品的集成、研发、运维、咨询服务。

内容 11

粉丝 0

诺亚鸿云专注于全信创鸿芯智算大模型一体机、HX-IPU数据加速单元/分布式存储、HX-DataCore超融合/双活/全闪存存储、云桌面/云终端、等自主可控系列硬件产品及企业数智化转型晓软AI+软件产品的集成、研发、运维、咨询服务。

总阅读1

粉丝0

内容11