随着人工智能技术发展,算力已成为驱动数字经济增长的核心生产力,而AI算力正在成为人工智能时代的“动力引擎”,支撑着模型训练、数据分析和智能应用。目前,AI应用领域不断拓展,但现有算力在面对大规模、高复杂度任务时已开始显现不足。比如图像识别训练中,因算力不足,训练时间延长、模型迭代缓慢,无法跟上市场需求。因此,为抓住人工智能发展机遇、提升竞争力,建设高效强大的AI算力中心迫在眉睫。
合肥中科类脑智能技术有限公司成立于2017年,依托类脑智能技术及应用国家工程实验室,专注于类脑智能技术的研发与应用。在人工智能快速发展的浪潮中,中科类脑积极布局,联合新疆乌鲁木齐经济技术开发区投资建设了皖疆绿色算力科技产业园(乌鲁木齐融合算力中心)。该项目一期总投资规模高达500P,已于2024年12月投入运营,进一步满足了“长三角”“珠三角”和“京津冀”等地区迅速增长的算力需求,提升了在相关领域的竞争力。在这背后,离不开中科类脑携手华为共同打造的高效算力网络,为人工智能的落地应用提供了坚实的联接底座。
智算时代的网络挑战:
高并发下的性能瓶颈
AI大模型训练涉及数据并行、流水线并行及张量并行等多种计算模式,对网络的带宽、时延、稳定性及部署效率提出了严苛要求。中科类脑新疆智算中心在支撑大规模AI任务时,面临的复杂通信模式更是对网络架构提出的极高要求。
超高带宽需求的挑战:在千亿参数规模的AI模型训练中,模型并行产生的All Reduce集合通信数据量达到百GB级别。无论是机内GPU通信还是机间GPU通信,都需要极高的网络带宽支持。而传统的网络架构已难以满足如此大规模的数据传输需求。
超低时延及抖动的难题:网络时延由静态时延和动态时延构成,其中动态时延包含了交换机内部排队时延和丢包重传时延,通常由网络拥塞和丢包引起。在大模型训练过程中,任何微小的时延抖动都可能影响多机多卡间数据同步的效率,进而降低GPU有效计算时间占比。
网络稳定性的高要求:网络系统的可用性直接决定整个计算集群的稳定性。一方面,网络故障域较大,单个网络节点的故障可能影响数十个计算节点的连通性;另一方面,网络性能波动会影响所有计算资源的利用率。在AI大模型训练任务周期中,维持网络的稳定高效对网络运维带来了全新挑战。
自动化部署的迫切需求:智能无损网络的构建基于RDMA(远程直接数据存储)协议及拥塞控制机制,需要一系列复杂多样的配置。任何一个参数配置错误都可能影响业务性能,甚至引发不可预期的问题。实现网络自动化部署成为提升大模型集群系统可靠性和效率的必由之路。
高效、绿色、稳定
华为助力打造智算网络基石
面对中科类脑在智算中心建设中面临的诸多挑战,华为基于深厚的技术积累,为中科类脑新疆智算中心提供了一套完整的网络解决方案。从带宽、时延、稳定性及部署效率四大维度精准突破,从带宽、时延、稳定性及自动化四个维度入手,全面满足大模型训练场景下的严苛要求,助力中科类脑打造高效、绿色、稳定的智算中心,为人工智能的落地应用提供坚实的基础。
🚩 高带宽解决方案:400G交换机,畅联无阻
华为采用自主创新的400G高带宽交换机,满足机内与机外海量数据传输需求。参数面和样本面采用ROCE组网,满足1:1的收敛比,确保数据传输高效无阻。同时方案支持的业界最高密640*400GE端口,使得算力规模能够弹性扩展。华为NSLB(算网协同负载均衡)已在NVD(英伟达)场景得到成熟商用验证,这一技术不仅提升了网络的通信效率,数据传输效率,缩短训练时间,加速模型迭代,还确保了AI大模型训练的高效进行,为智算中心的性能提升提供了有力支持。
🚩 超低时延及抖动解决方案:NSLB-gAR技术,精准控时
通过引入华为NSLB-gAR网络动态负载均衡技术,基于创新的Packet Event超时延感知功能,可智能识别拥塞流,实现链路智能切换。这一技术不仅提升了网络的带宽利用率,还有效降低了通信时延,提升了GPU有效计算时间占比,显著降低网络时延及抖动,提升训练稳定性与效率,确保AI大模型训练顺利进行。
🚩 超高稳定性解决方案:全自研光模块,稳健护航
针对网络稳定诉求,华为采用自主创新的光模块,自动感知光链路健康状态,主动检测光链路脏污和松动故障,减少光模块故障导致的训练任务中断时长。基于三层五维模型,全面深挖网络风险隐患,防患于未然。这一方案不仅提升了网络的稳定性,同样降低了网络运维的复杂度,确保了智算中心的高效运行。
🚩 网络自动化部署解决方案:NCE-Fabric工具,高效运维
为实现网络自动化部署,方案采用NCE-Fabric系统,自动进行网络部署,大幅提升网络部署和运维效率。通过智能化的管理平台,有效避免了人工配置可能带来的错误,确保了大模型集群系统的高可靠性和高效率。全网统一的以太网架构,支持全网统一运维。这一方案不仅提升了网络的运维效率,还降低了总体拥有成本(TCO),为智算中心的长期运营提供了经济保障。
【客户表示,华为星河高品质智算解决方案有效释放算力能力,做到算网协同,实现业务零中断,稳智运维,故障自处置,稳定可靠。】
展望未来,随着人工智能技术的持续演进,算力需求将继续呈现指数级增长。华为与中科类脑的成功合作为智算中心建设树立了新的标杆,证明了创新网络架构在大模型训练场景下的卓越性能。这一合作模式不仅为长三角地区的企业提供了强大的算力支撑,也为全国智算中心建设提供了可复制的成功经验。随着“东数西算”工程的深入推进,华为将继续携手合作伙伴,以持续创新的技术能力,为构建全国一体化算力网络贡献力量,助力中国数字经济高质量发展。
你的每一次“在看”,我都看得见!![]()


