作者简介
穆翔栩
浪潮电子信息产业股份有限公司解决方案架构师,博士,主要从事人工智能、大模型有关技术开发研究和产业化工作。
贾明艳
中国信息通信研究院云计算与大数据研究所助理工程师,主要从事数据中心在算力、低碳发展等领域的产业咨询、技术研究和相关标准制定工作。
王天成
通信作者。浪潮电子信息产业股份有限公司高级架构师,博士后,主要从事人工智能、大模型、智算中心、高性能计算有关技术研究和产业化工作。
吴美希
中国信息通信研究院云计算与大数据研究所数据中心部副主任,工程师,主要从事数据中心在算力、绿色发展等领域的政策支撑、技术研究和相关标准制定工作。
论文引用格式:
穆翔栩, 贾明艳, 王天成, 等. 人工智能时代高质量算力发展趋势洞察[J]. 信息通信技术与政策, 2025, 51(2): 18-23.
人工智能时代高质量算力发展趋势洞察
穆翔栩1 贾明艳2 王天成1 吴美希2
(1.浪潮电子信息产业股份有限公司,北京 100089;
2.中国信息通信研究院云计算与大数据研究所,北京 100191)
摘要:围绕人工智能时代的算力发展需要,从计算器件、计算单元和基础设施3个维度出发,分析了算力的发展现状和遇到的技术挑战。为了应对人工智能发展给算力带来的性能、效率和能耗等挑战,提出高质量算力概念,并展望高质量算力技术发展方向。
关键词:人工智能;算力;高质量发展
0 引言
随着ChatGPT等创新应用的迅速崛起,以大模型为代表的人工智能技术正快速发展,深度变革生产力形态,成为全球关注的焦点及创新应用的前沿阵地。如美国在2024年11月披露“AI曼哈顿计划”,聚焦对人工智能研发的长期资金支持、人才培养、公私伙伴关系扩大等战略方向,全面布局人工智能产业。智能算力是人工智能时代的核心支撑要素,在大模型训练推理的需求推动下,全球的智算规模加快扩张。截至2023年底,全球算力总规模达到910 EFLOPS(单精度FP32),同比增长40%,智算规模同比增长136%[1]。与此同时,我国智算增长势头强劲,2023年我国算力总规模超过230 EFLOPS,同比增长28%,其中智能算力超过70 EFLOPS,同比增长超70%[1]。
人工智能的计算密集性促使智能算力规模化增长。在大模型预训练过程中,需对超过千亿的神经网络参数进行权重计算、梯度传递,并需要处理大量的数据,单次预训练通常需要数月的集群化计算,对于计算量要求极高。以参数量为4 050 亿的Llama 3.1为例,单次训练算力需求是700 亿参数Llama 2的50 倍[2]。在大模型推理过程中,不仅要装载同等规模的参数,还需满足使用侧高并发、低时延的要求。人工智能的大规模应用须经过训练、微调、推理部署等多种传统计算无法满足的流程,以应用为导向,未来智能算力将迎来高速增长。
当前,我国算力的发展正在经历由“量”向“质”转变的重要关口,面临提升算力效率、整合算力资源、驱动人工智能在行业落地等关键挑战。因此,洞察算力发展趋势和挑战,从多维度提出前瞻性建议至关重要。本文分析了不同尺度的算力演进趋势和挑战,强调了算力高质量发展的重要性,并展望了如何构建高算效、高智效、高碳效、可获得、可持续、可评估的高质量算力。
1 算力发展现状
以规模尺度分类,算力大致可划分为计算器件、计算单元、基础设施3个层级。计算器件是构成计算系统的物理组件,主要包括中央处理器(Central Processing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)等,是执行计算任务的基本单元,计算器件的性能直接影响计算任务的执行速度和效率;计算单元指多个计算器件组成的、能够独立执行计算任务的单元(如服务器),能够运行操作系统和应用程序,完成特定的计算工作;基础设施指支持计算单元运行的物理和组织结构(包括数据中心、网络设施、存储系统等),为计算单元提供必要运行环境,确保计算资源的稳定供应和高效管理。以下将从这3个层级对算力的现状进行分析。
1.1 计算器件
为满足人工智能对高并行处理和大量矩阵运算的需求,计算器件性能提升的同时,其架构也在不断演进。目前,单个处理器已具备每秒万亿次的双精度浮点运算能力,对于人工智能场景常见的千维矩阵运算,单个加速计算器件每秒可以执行约2 000 万次,计算范式从以CPU承担主要计算任务,转变为由CPU调度计算资源、分发计算任务,GPU等加速计算器件处理大量矩阵运算负载。同时,在特定的人工智能领域,张量处理单元(Tensor Processing Unit,TPU)、现场可编程门阵列(Field Programmable Gate Array,FPGA)等专用器件也在逐渐被推广和使用。如TPU专门为运行深度学习模型设计矩阵乘法单元,能够满足人工智能模型中大量矩阵运算[3];FPGA以其并行处理的特性和硬件加速模块设计,适用于需要低延迟、高吞吐量的人工智能推理加速场景[4-5]。
为了满足人工智能对数据流转的高要求,存储器件和内存领域实现了创新性技术进步。人工智能需要在短时间内读取大量数据用于训练,并且需要高效存储模型参数和中间计算结果,因此对数据存储器件的效率和可靠性提出了更高要求。非易失性存储(Non-Volatile Memory express,NVMe)固态硬盘(Solid State Drive,SSD)基于高速串行计算机扩展总线标准(Peripheral Component Interconnect express,PCIe)总线,提供更高的带宽、更低的延迟和更高的每秒输入输出操作数(Input/Output Operations Per Second,IOPS),已广泛应用于智算中心建设。高带宽内存(High Bandwidth Memory,HBM)利用3D堆叠动态内存技术,实现了更高的存储密度和更快的数据传输速度,支持大量模型参数和中间数据在GPU等加速器件间的快速传输[6]。
为了应对人工智能分布式训练对于通信的需求,网络器件性能不断提升。速率方面,网卡技术已突破400 Gbit/s,并在向800 Gbit/s甚至更高速率迈进,以适应大规模数据传输的需求;功能方面,智能网卡(SmartNIC)集成了高性能计算和网络处理能力,具备硬件加速、低延迟、高吞吐量以及灵活性等特点,已广泛应用于人工智能训练集群的数据交换[7]。
1.2 计算单元
为了实现纵向扩展(Scale Up)以提升系统的性能和处理能力,“All to All”的计算器件互联方式成为计算单元的主流形态。大模型分布式训练需要超出了单个器件、单个单元的处理能力,当前计算单元内各个器件正在以不同的互联方式提高计算效率。例如,Grace-Blackwell计算器件利用高带宽、低延迟的点对点互联技术,显著提高了计算器件之间的通信带宽,从而提升了分布式计算效率;开放加速模组(Open Accelerator Module,OAM)规范利用全互联和混合立方网络等高速互联拓扑技术,实现了计算器件之间的全互联速率提升,并且通过模块化设计简化了计算单元架构,统一了底座兼容支持多样的计算器件,加速了人工智能硬件的落地应用。计算高速链路(Compute Express Link,CXL)通过改进的PCIe协议实现免I/O总线的内存与计算器件的直连,扩展了计算内存且实现缓存一致性共享[8]。
计算单元之间互联进行横向扩展(Scale Out)方向的优化,向着增加服务器或者节点扩展处理能力和存储容量的方向发展。例如,计算单元之间的加速器件直接高速互联,提高了单元的扩展能力,扩展了高速互联域;通过InfiniBand或者RoCE实现远程直接内存访问(Remote Direct Memory Access,RDMA),提升了数据传输效率,并且支持大规模GPU集群的横向扩展,满足了人工智能训练和推理的高吞吐量需求。
为了适应人工智能计算规模和复杂度的快速变化,计算单元的结构形态更加便于运维和扩展。计算单元和交换单元通过堆叠互联,降低网络成本并提升增加通信速度,以应对人工智能发展处理大量数据和极速扩张的计算规模需要。通过将计算单元的接口和控制模块从计算单元的后端移动到前端,减少了电缆连接引起的可靠性问题,允许用户更便捷地访问和操作设备的控制面板和接口,并方便地进行硬件维护和故障排查,保证计算时的稳定性。无盘节点通过将存储设备从计算单元中移出,实现了数据的集中管理,提高计算性能的同时节省了存储和散热系统的成本,适用于计算密集型和高密度计算环境。
1.3 基础设施
模块化的设计和部署加快应用,推动基础设施快速部署并就近利用能源。数据中心等算力基础设施通过标准化的模块组合可实现快速部署和灵活扩展,如通过预制模块化机柜,减少现场安装时间,提高数据中心的部署效率,缩短应用上线时间。同时,在模块化部署的基础上,选择在具有能源优势的地区部署智算中心,可以优化能源利用途径,降低基础设施运营成本。
能源效率成为基础设施关键指标,液冷技术逐渐成熟以应对高密度设备散热需求。基础设施的供电和散热设计是影响能效优化和可靠性的因素,比如供电上采用高效率的电源转换器(如钛金级或白金级电源)、采用分布式供电的拓扑结构,以提高供电效率并降低单点故障风险,支持大模型训练长周期的需要;在人工智能服务器和智算中心等场景中,冷板式、浸没式等液冷方式逐渐替代风冷,可实现更高的散热效率、更低的能耗和更均匀的温度控制。此外,散热设计开始注重热管理策略,如通过动态温控、热通道/冷通道隔离以及热回收技术实现能源的循环利用和最大化散热效果。
基础设施的管理逐渐智能化,依靠管理平台和应用平台实现效率的提升。例如,通过采用机器学习和人工智能技术,优化智算中心的资源分配和任务调度,管理平台集成自动化运维,减少人工干预,通过自动化脚本和智能监控系统,实现故障的自动检测和修复。在应用开发的支撑层面,为了发展人工智能应用,出现了大语言模型开发平台(Large Language Model Operations,LLMOps)的一些早期实践,专注于大型语言模型的特殊需求,提供优化的操作框架,可加速人工智能模型开发、部署和管理。
2 算力发展挑战
2.1 计算器件性能提升遭遇瓶颈,兼容性问题频发
计算器件的性能提升正遭遇瓶颈,架构种类繁多引发的兼容性问题频发。“大约每隔两年晶体管数目增加一倍”的摩尔定律开始放缓,物理尺寸微缩濒临硅材料极限,导致单个器件在密度和性能上的优化效果减弱,而升级到更先进制程的设计和生产成本却急剧上升。在冯·诺依曼架构下,数据在存储器和处理器间的传输效率低于处理器的工作效率,导致处理器在进行数据输出的时候可能会处于长时间的空闲状态,限制了计算机的整体性能,在面对大量数据吞吐任务时,冯·诺依曼架构的局限性变得更加明显。另外,随着多元异构算力的发展,跨架构和跨生态的兼容性问题突出。处理器架构有x86为代表的复杂指令集和ARM、RISC-V等精简指令集,同时在加速器件上的算子库、接口库也多样各异,其上的算子生态封闭,开发难度大[9],存在跨架构和跨生态的兼容性问题。
2.2 计算单元计算效率有待提升,面临内存墙、通信墙、异构兼容墙等多重挑战
内存墙和通信墙问题严重制约人工智能大模型训练效率,而加速器件的多样化发展进一步加剧了兼容性和部署复杂度,影响计算单元在人工智能应用场景下的计算效率。内存墙指内存的容量或传输带宽有限、与计算器件互联程度有限,导致计算器件在执行计算任务时从内存中获取数据需要频繁等待,从而降低整体计算效率,尤其是在人工智能大模型训练中,模型参数和中间计算结果的存储需求急剧增加,传统内存架构已经无法满足需求。计算单元内也存在通信墙问题,传统的PCIe等总线技术在面对人工智能分布式训练,多个器件之间需要频繁交换大量数据时,带宽和延迟问题尤为突出。不同类型加速器件创新发展的同时也带来了器件兼容性和软硬件兼容问题,不同计算单元之间的接口标准、通信协议差异较大,导致部署复杂度增加,其开发工具链和软件生态也尚未成熟,开发者需要花费大量时间进行适配和优化。
2.3 基础设施能耗问题凸显,能效碳效亟须提升
随着算力规模快速增加,算力基础设施的能耗不断攀升。计算器件是算力基础设施中主要的能耗来源,尤其是某些加速器的功耗已经突破了1 000 W;计算单元内数据的转移也大大增加了能量消耗,33%数据中心的功耗用在数据复制粘贴上[10]。数据中心是公认的高耗能基础设施,“双碳”目标下面临着能效和碳效的双重挑战。截至2023年底,我国数据中心耗电量达1 500 亿千瓦时,若不加大可再生能源利用比例,2030年全国算力中心二氧化碳排放将超过2 亿吨;另外,目前基础设施对于多元算力、多种模型的适配仍然存在问题,资源利用率不高,如AWS的数据显示其GPU平均利用率只有10%~30%[11]。
3 高质量算力发展展望
从计算器件、计算单元、基础设施的发展现状和挑战可以看出,算力正基于最新的人工智能理论,采用更先进的计算架构,向着更高水平的计算能力发展,然而也面临着性能、效率、能耗等方面的综合考验。如今算力已成为衡量国家综合实力和国际话语权的重要指标,亟须更高水平的发展变革以应对新阶段的发展挑战,构建具备高算效、高智效、高碳效、可获得、可持续、可评估等特征的高质量算力可充分响应人工智能日益复杂的计算需求,将成为未来算力的发展趋势。
高算效指的是在提高算力理论算效的同时考虑更高的实测性能和资源利用率,是综合考虑设计、运行等维度的计算效率,可从系统的角度出发聚合和调度集群内算力提高算效。在聚合算力方面,运用系统工程的方法对大规模集群网络进行精细化设计,通过器件之间和单元之间的网络优化及软硬件的适配调优可充分提升集群的算力效率。在调度算力方面,通过聚合池化算力、存力和运力,采用先进的资源管理方式进行切分、调度、分配,可显著减少算力集群资源空闲度。
高智效指的是算力具备高效处理人工智能业务的能力和较高的自动化、智能优化水平,可通过全新计算架构的创新和应用提高智效。通过改进算力器件的架构、互联和封装,可满足人工智能业务对于算力高效率和高可靠性的需求。例如,采用数据流架构、存算一体、高带宽存储、Chiplet技术等改进器件[5],克服内存墙、通信墙、异构兼容墙、计算效率低等问题。同时,可根据业务需求提供定制化解决方案,提升算力应用水平。如结合企业专有数据进行模型微调、定制化硬件加速器提高数据处理速度,增强算力在特定场景中的智能处理能力。
高碳效指的是算力在最低碳排放前提下实现最大化算力输出,是兼顾碳排放量和算力性能的综合指标,可从算力的全生命周期考虑节能降碳。从数据中心到计算器件,考量算力系统全生命周期的碳足迹,全面优化提高碳效。如利用先进技术克服算力中器件、单元、集群的能耗问题,通过动态电压和频率缩放动态调整处理器的电压和频率降低处理器功耗,推广使用冷板式、浸没式液冷新技术降低能耗;在集群级别上,从供电上采用高效不间断电源和电源转换器减少电力转换的损失,采用人工智能、大数据等技术智能化管理算力中心的运营,采用可再生能源作为基础设施的能量来源,减少碳排放。
可获得指的是算力能够满足普适应用需求和普惠使用成本要求,通过分层次、分类别建设布局智算中心,有助于缓解如今算力资源紧张、算力成本高的问题。如建立大规模智算集群满足人工智能大模型预训练的规模需求,建立区域内的小规模算力中心满足各行各业的多样化计算,在此基础之上搭建算力平台平衡算力资源供给和需求,提高算力中心的资源利用率。
可持续指的是算力具备技术兼容、供应链完备、产业生态开放的特性。可持续的算力通过开放的生态和各个层级的解耦消除技术屏障。如通过开放算力模组、开放加速模组的标准化设计和推广,解决算力器件互联互通问题;采用具备统一纳管能力的管理平台、开发平台适配多种模型,应对多元算力和多模算法的兼容适配问题,更好地促进技术创新和产业融合。
可评估指的是面向人工智能应用场景,算力可通过完整、有效的评估体系得到反映实际应用情况的特性。完善的算力评估体系从算力单一评价升级为多维评估,除了关注传统的理论算力性能,更重视算力对于业务的实际支撑效果,采用标准化的评估方式得出准确数据,提出贴合实际的指导建议,引导算力产业向更高效、规范的方向发展。
4 结束语
当前,人工智能技术正以前所未有的速度蓬勃发展,人工智能应用驱动全球算力规模快速增长。然而,算力产业化面临着计算器件性能瓶颈、架构兼容性问题、计算单元效率不足以及基础设施能耗攀升等多重挑战,发展高质量算力刻不容缓,从高算效、高智效、高碳效、可获得、可持续、可评估6个维度进行全面优化,可充分提升算力资源的利用率,发挥算力的核心支撑作用,推动人工智能繁荣发展和产业创新落地。
High-quality computing power trends in the era of artificial intelligence
MU Xiangxu1, JIA Mingyan2, WANG Tiancheng1, WU Meixi2
(1. IEIT SYSTEM Co., Ltd., Beijing 100089, China;
2. Cloud Computing & Big Data Research Institute, China Academy of Information and Communications Technology,Beijing 100191, China)
Abstract: By focusing on the needs of computing power development in the era of artificial intelligence (AI), this paper analyzes the current situation and technical challenges of computing power development in three dimensions: computing devices, computing units, and infrastructure. To address the challenges of performance, efficiency, and energy consumption brought about by the development of AI, the concept of high-quality computing power is proposed, and the technological directions for the development of high-quality computing power are prospected.
Keywords: AI; computing power; high-quality development
本文刊于《信息通信技术与政策》2025年 第2期
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“ 信息通信技术前沿的风向标,信息社会政策探究的思想库 ”,聚焦信息通信领域技术趋势、公共政策、 国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
期刊荣誉与收录情况
AMI(2022版)A刊扩展期刊
RCCSE中国核心学术期刊
入选中国科协信息通信领域高质量科技期刊分级目录
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊官方网站(http://ictp.caict.ac.cn)已正式投入运行,欢迎投稿!
推荐阅读

