大数跨境
0
0

计算机|华为引领算力创新,重视国产算力机遇

计算机|华为引领算力创新,重视国产算力机遇 中信证券研究
2025-09-21
109
导读:计算机行业“构筑中国科技基石”系列报告45

华为全联接大会公布昇腾算力芯片及集群发展路线图

2025年9月18日,华为全联接大会2025在上海举行,华为在会上发布了昇腾未来算力芯片及集群发展路线图,明确了未来数年在单卡性能与集群扩展方面的技术演进方向。重点聚焦三大技术升级:芯片架构由910C的SIMD微架构升级至950系列的SIMD/SIMT架构,提升通用计算能力;数据格式新增支持FP8/MXFP8/HiF8/MXFP4,增强低精度算力效率;卡间互联带宽从784GB/s提升至2TB/s,超越NVLink 5.0。同时,华为展示了基于昇腾芯片的SuperPoD与SuperCluster集群方案,通过UB总线实现大规模扩展。随着互联网等下游AI算力需求持续增长,国产算力在单卡性能与集群能力方面有望进一步提升竞争力,建议关注国产算力芯片、服务器及OCS光学器件供应链相关企业。

昇腾芯片及集群产品路线图:一年一迭代

  • 2025Q1(910C):SIMD微架构,支持FP16/BF16,卡间互联带宽784GB/s,算力800Tflops@FP16,内存128GB,带宽3.2TB/s;
  • 2026Q1/Q4(950PR/DT):SIMD/SIMT微架构,新增FP8/MXFP8/HiF8/MXFP4,卡间互联带宽2TB/s,算力1PFlops@FP8,2PFlops@FP4,PR版本内存128GB(1.6TB/s),DT版本144GB(4TB/s);
  • 2027Q4(960):SIMD/SIMT架构,新增HiF4格式,互联带宽2.2TB/s,算力2PFlops@FP8,4PFlops@FP4,内存288GB,带宽9.6TB/s;
  • 2028Q4(970):SIMD/SIMT架构,互联带宽4TB/s,算力4PFlops@FP8,8PFlops@FP4,内存288GB,带宽14.4TB/s。

集群方面,950/960 SuperPoD分别支持8192卡和15488卡互联,采用跨柜全光互联;950/960 SuperCluster可通过UB网络扩展至52万卡和99万卡规模。

单卡技术亮点:架构升级、低精度优化、互联带宽提升

微架构向GPU靠拢,兼容性增强

昇腾芯片从910C的SIMD架构升级为950系列的SIMD/SIMT混合架构,标志着华为从专用加速器(DSA)向更接近GPU的架构转型。SIMT(单指令多线程)是GPU主流架构,编程更直观、开发更便捷。此次架构调整表明华为正朝着与NVIDIA生态更强兼容的方向发展,有助于提升开发者适配效率。

支持多种低精度格式,提升算力效率

950系列新增FP8、MXFP8、HiF8、MXFP4等低精度数据格式。低精度计算可显著降低内存占用并提升吞吐效率,例如FP8相较FP16可在相同算力下实现近两倍的等效吞吐。该升级有助于缩小国产芯片与国际先进水平在推理和训练效率上的差距,推动国产AI芯片在大模型场景中的应用落地。

卡间互联带宽突破2TB/s,优于海外旗舰

950系列卡间互联带宽提升至2TB/s双向,远超昇腾910C的784GB/s,也超过NVIDIA Blackwell架构NVLink 5.0的1.8TB/s。高带宽互联对构建超节点和大型集群至关重要,华为通过UB网络实现Scale-up与Scale-out高效组网,已在CloudMatrix384产品中验证成熟,未来有望在高性能计算场景中进一步提升系统级竞争力。

集群扩展能力跃升,系统级算力成基础设施

SuperPoD支持上万卡互联

华为将现有超节点方案扩展为SuperPoD架构,950和960系列分别支持8192卡和15488卡互联,采用跨柜全光互联方案,实现更高密度、更低延迟的大规模连接,适用于千亿级以上大模型训练与推理。

UB网络支持近百万卡集群

通过UB网络,950和960 SuperCluster可分别扩展至52万卡和99万卡集群,极大突破传统集群规模限制,为未来万亿参数模型提供底层支撑。

系统级算力将成为AI基础设施主流

随着模型架构持续创新,如阿里Qwen团队提出的Parallel Scaling、腾讯混元采用Transformer-Mamba混合架构,训练侧Scaling Law仍具潜力。在推理端,MoE架构普及后,硬件需支持更高吞吐与更低延迟。预计以SuperPoD为代表的超大规模推理集群将成为主流形态,系统级算力将成为下一代AI基础设施的核心。

国产算力加速迭代,2026年或迎爆发期

华为展示的产品路线显示,2026年将推出性能显著提升的新品,并保持每年算力翻倍的迭代节奏,体现其快速创新能力。其他国产头部算力厂商亦维持高频迭代,整体产品力快速上升。在政策支持、模型厂商适配加强及互联网企业加大投入背景下,2026年有望成为国产算力发展关键年份,国产算力或将接棒全球市场主线。

算力、模型与应用协同发展,国产AI迎来机遇

当前国产算力进步并非孤立现象。随着芯片能力提升,国产大模型也在同步迭代,如DeepSeek V3.1采用FP8精度设计,专为下一代国产芯片优化,体现“算力—模型”协同进化趋势。同时,相关企业AI业务收入占比逐季提升,下游应用已在云计算等环节显现成效。整体来看,国产人工智能产业正进入算力驱动、模型升级、应用落地的良性循环,未来发展空间广阔。

风险因素

  • 人工智能产业发展不及预期;
  • AI芯片流片失败风险;
  • 互联网企业资本开支低于预期。

投资策略

华为在微架构、低精度计算、卡间互联与集群构建等方面已明确技术路径,引领国产算力创新发展。当前国产算力与大模型呈现双向奔赴态势,随着产品力持续提升,国产算力将迎来重要发展机遇。建议重点关注国产算力芯片、服务器整机及OCS光学器件供应环节的相关企业。

【声明】内容源于网络
0
0
中信证券研究
1234
内容 6740
粉丝 1
中信证券研究 1234
总阅读49.6k
粉丝1
内容6.7k