

从单点性能到全链路效能，国产超节点“双王”极限竞技！

老张 IT智习社

2025-12-11

超节点的较量正超越单一算力指标，转向算、存、网、电、冷的全链路优化。近日，曙光scaleX640与华为昇腾384两大超节点王牌首次真机同台竞技。双方披露的技术细节显示，超节点架构在系统创新层面的差异，将直接决定其实际场景部署中的综合效能。

据悉，在高密度集成技术上，两大国产超节点领航者采用了截然不同的实现路径。昇腾384 以“多柜协同”达成规模扩展，由 12 个计算柜组成384卡超节点，单机柜可集成 32 张加速卡，虽实现算力规模化，但占地面积较大、算力密度相对较低。

曙光scaleX640 则通过“单机柜极致集成”突破，采用 “一拖二” 高密架构，在单机柜内实现 640 张加速卡的稳定运行，集成密度达到昇腾 384的20倍，双机柜可组成 1280 卡计算单元，算力部署集成度提升一个量级。

表现在算力性能方面，scaleX640的总算力达到 630 PFlops，是昇腾384（300PFlops）的 2.1 倍，能够轻松支撑万亿参数大模型的训练与推理。关键的内存与带宽指标上，前者81.9TB的HBM总容量和2304 TB/s的带宽均处于领先水平，为密集型计算任务提供了充足保障。

功耗散热技术上的创新差距更为直观。据悉，昇腾384采用冷板式液冷技术，PUE 值控制在 1.1-1.15 区间，能耗压力较为显著。scaleX640则采用了先进的浸没相变液冷技术，将 PUE 降至 1.04 的行业极值，单机柜可承载 1.72MW 的散热需求。

此外，在生态建设方面，国产超节点表现出“开放式”与“封闭式”路线的明显差异。

其中，曙光联合产业链上下游推出AI计算开放架构，通过 “硬件兼容 + 软件适配 + 标准共建” 三层体系，为国产芯片厂商提供了关键验证平台。scaleX640底层架构逻辑正源于此。昇腾384则采用了典型的垂直整合模式（可以类比“苹果”），主要由单一巨头厂商为主导，构建独立的生态闭环，目的显然是为了降低内部协同难度，增强生态主导权。

这也导致两大超节点对标兼容能力差距较大：前者适配支持多品牌AI加速卡，用户选择更加灵活，且全面兼容主流AI计算生态，能够支持AI模型、业务应用快速无缝迁移与深度优化；后者仅支持昇腾910C加速卡，适配主流生态需要二次转译，迁移成本和性能损失较大。

不过，昇腾384作为“封闭式”路线巅峰玩家，目前正在通过软件创新寻求突破。

华为最新发布的Flex:ai AI容器软件，可以把单张GPU/NPU算力卡切分为多份虚拟算力单元，并将空闲的XPU算力形成“共享算力池”。这种封闭架构内的资源优化尽管仍局限于“以软补硬”，但也体现出国产超节点对系统化进阶的积极尝试。

曙光scaleX640则基于“开放式”架构扩展性优势，正提前锁定“万卡集群”胜局。业内爆料称，中科曙光可能将在年内发布万卡超级计算集群，甚至比2026年Q4的Atlas 950超节点计划更为激进。显然，下一轮超节点极限竞技将更加精彩。

【声明】内容源于网络

老张 IT智习社

IT智习社，是智算领域一起学习的专业社群，老张是北漂it民工，目标做最接地气的科普类文章！聚焦AI、信创、液冷、智算中心等相关细分领域！入交流群或商合可+vx(zcyaihuai)！

内容 485

粉丝 0

老张 IT智习社 IT智习社，是智算领域一起学习的专业社群，老张是北漂it民工，目标做最接地气的科普类文章！聚焦AI、信创、液冷、智算中心等相关细分领域！入交流群或商合可+vx(zcyaihuai)！

总阅读306

粉丝0

内容485