【报告】架构专题六：2025中国算力发展之AI计算开放架构研究报告(附PDF下载)



【报告】架构专题六：2025中国算力发展之AI计算开放架构研究报告(附PDF下载)

人工智能产业链union

2025-12-06

导读：更多人工智能行业精彩报告，尽在人工智能产业链联盟。

中国智能计算产业联盟：

《2025年中国算力发展之AI计算开放架构研究报告》

（完整版.pdf ）

以下仅展示部分内容

中国智能计算产业联盟发布的《2025 年中国算力发展之 AI 计算开放架构研究报告》，聚焦 AI 算力需求爆发背景下的架构创新与产业突破，系统梳理了 AI 计算开放架构的概念内涵、发展现状、核心价值与实践路径，为破解我国算力瓶颈、构建自主可控的智算产业生态提供了重要指引。

AI 计算开放架构的崛起背景

AI 技术的迅猛发展与规模化应用推动算力需求呈指数级增长，暴露出现有算力体系在性能、成本和生态方面的多重痛点，成为 AI 计算开放架构兴起的重要动因。

AI 算力需求的爆发式增长

大模型参数量从 GPT-3 的千亿级跃升至 GPT-4 的万亿级，训练过程需依赖万卡级集群持续运行数月。多模态融合、科学智能（AI for Science）、智能体等新兴应用场景进一步放大算力需求，较传统语言模型提升数倍至数百倍。Google、Meta、字节跳动、阿里巴巴等企业纷纷建设十万卡级超大规模智算集群，推动算力基础设施向更高层级演进。

国内算力发展的趋势与瓶颈

全球算力呈现通用、智能与超算多元异构融合趋势，CPU、GPU、FPGA、ASIC 协同优化成为主流。我国智能算力规模快速增长，但仍面临三大瓶颈：一是国产 AI 芯片单卡性能落后国际先进水平 2-3 代，同等模型训练成本高出 30%-50%；二是集群互联带宽不足，制约大规模并行计算效率；三是软硬件适配度低，生态协同缺失，导致智算中心平均算力利用率仅约 30%，远低于行业平均水平。

AI 计算开放架构的核心内涵与特征

AI 计算开放架构通过产业链跨层协作，实现从单点突破到系统集成创新，以集群化方式弥补单芯片性能差距，是应对当前算力挑战的关键路径。

概念与核心目标

该架构面向大规模智能计算场景，联合芯片、系统、大模型等上下游环节，构建以 GPU 为核心的高效紧耦合协同体系。其目标在于优化算力供需匹配，支持多品牌 AI 加速卡兼容，满足多样化精度运算需求；同时通过标准化设计替代专有方案，降低使用门槛，推动算力普惠与生态繁荣。

六大核心特征

AI 计算开放架构具备六大鲜明特征：多元算力适配主流 GPU 品牌，支撑大模型训练推理及科学计算等多元场景；高速互连采用 Scale-up 与 Scale-out 多层次网络，显著提升数据传输效率；存算协同通过算、存、传一体化设计，突破存储 IO 瓶颈；绿色高效引入先进液冷技术，支持高密度部署并降低能耗；稳定可靠结合软硬件冗余设计与 AI 辅助运维，保障超大规模集群长期稳定运行；生态繁荣兼容主流异构计算框架，减少模型迁移与开发适配成本。

架构演变与组网方式

计算架构历经集中式、分布式，已进入智能时代的超异构融合阶段，超节点、整机柜、超大规模集群成为主要载体。组网方式分为两类：Scale-up 通过增加单节点 GPU 数量或性能提升算力，依托 NVLink 等高速互联技术突破通信瓶颈；Scale-out 则通过扩展服务器节点数量实现横向扩容，采用 InfiniBand 或 RoCEv2 等 RDMA 技术保障低时延与高负载均衡能力。

国内外 AI 计算开放架构的发展现状

全球科技企业与行业组织积极推进 AI 计算开放架构布局，加速技术标准化与生态共建。

国际发展现状

英伟达推出基于 Blackwell 架构的 GB200 NVL72 机架级解决方案，并贡献 OCP 社区规范，支持大规模 AI 基础设施部署；Meta 发布 Catalina 液冷机架与 Grand Teton 开放平台，支持跨厂商加速器集成；OCP（开放计算项目）作为全球最大开放计算社区，已设立 40 余个子项目，涵盖 AI、边缘计算等领域，推动芯粒、光交换等关键技术发展。

国内发展现状

华为发布昇腾 AI 芯片与开源软件平台 CANN，构建“硬件+软件”协同生态；字节跳动定义“大禹”服务器架构，推动开放部件应用；中科曙光推出单机柜 640 卡超节点 scaleX640，支持百万卡级扩展；海光信息自主研发 HSL 开放互联总线，联合十余家国产厂商共建生态。行业组织方面，ODCC 累计发布成果超 300 项，OCTC 推出服务器带内管理开源项目，AI 计算开放架构联合实验室促进跨层技术协作。

AI 计算开放架构的核心价值与面临挑战

核心价值

AI 计算开放架构具有四大核心价值：一是推动产业链跨层协作，实现全链条优化，加快技术迭代；二是以集群创新弥补单卡性能短板，保障可持续算力供给；三是通过开源开放与资源集约化降低使用成本，促进算力普惠；四是打破厂商锁定与生态割裂，构建开放共赢的产业格局。

面临挑战

当前仍存在双重挑战：一方面，国产硬件技术路线分散，尚未形成统一标准与接口规范，跨架构调度复杂度高；另一方面，国产软件栈尚不完善，开发工具链、通信库与算子库丰富度不足，生态协同机制缺失，限制上层应用对底层算力的有效调用。

实践案例与未来展望

典型部署案例

中科曙光 AI 超集群单机柜可集成 96 张 GPU，访存总带宽超 180TB/s，千卡集群训推性能达业界主流水平的 2.3 倍，PUE 低于 1.12；沐曦在上海松江部署万卡级 AI 集群，采用 400G RoCE 网络，支持主流大模型框架与推理引擎，实现 16 至 64 卡光互连超节点，服务于大模型训练与行业智能化转型。

未来趋势与发展倡议

未来智算产业将呈现三大趋势：算力规模持续扩大，多元化创新加速；国产 GPU 迎来百花齐放期；端边云协同优化推动算力合理分布。报告提出三项发展倡议：加快智算集群、超节点互联等关键领域标准制定，构建“攻关-标准-验证”闭环生态；重点突破高性能芯片、高带宽互联、异构融合等核心技术；优化算力运营管理机制，引导科学布局，培育多元市场，建立全流程监管体系，提升服务质量。

来源：中国智能计算产业联盟

编辑：Zero

【声明】内容源于网络

人工智能产业链union

人工智能产业链联盟，旨在汇聚全球人工智能领域的创新力量，共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心，打造了一个完整、高效、协同的人工智能生态链。

内容 412

粉丝 0

人工智能产业链union 人工智能产业链联盟，旨在汇聚全球人工智能领域的创新力量，共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心，打造了一个完整、高效、协同的人工智能生态链。

总阅读10.1k

粉丝0

内容412