以云计算、大数据、人工智能为核心的智能计算,离不开强大的生产供给中心——“智算中心”,如同农业时代的农业生产需要水利,工业时代的内燃机需要石油一般。那么,究竟什么是智算中心呢?
一、什么是智算中心
智算中心即人工智能算力中心(AIDC),是指专门为人工智能大模型及(AI)应用提供强大计算能力和数据存储的基础设施。它融合了大量的高性能计算设备、高速网络以及先进的软件系统,旨在为人工智能的训练和推理提供高效、稳定的计算与存储的基础设施。

二、智算中心的核心组成部分
(一)高性能计算硬件
高性能计算集群:由多台高性能AI服务器组成,通过高速网络连接,实现大规模并行计算。该AI服务器通常配备先进的高性能处理器,如 GPU等,能够快速处理大规模的计算任务。

AI 服务器:作为智算中心的关键组成部分,AI 服务器通常采用 CPU+AI 加速芯片的异构架构,通过集成多颗 AI 加速芯片来实现高计算性能。NVLink 等高速互联架构被广泛应用,以提高服务器内部的通信效率。
AI 服务器集群:由多台 AI 服务器构成的大规模计算系统,主要用于支持大规模模型的训练和推理。通过优化计算、网络和存储资源的配置,可实现高性能、可扩展的计算能力。例如,英伟达的H100 服务器集群就是高性能 AI 集群的代表之一,具有较快的训练速度和较长的稳定训练周期。
分布式高速存储设备:包括固态硬盘(SSD)和高速内存,以确保数据能够快速读取和写入,满足人工智能算法对数据的高吞吐量需求。
(二)高速网络连接
高速低延迟网络:智算中心内部高性能AI服务器计算集群,采用高速网络架构,如 InfiniBand 或 RDMA 技术等,确保数据在服务器之间的高速低延迟传输。
与外部网络的高速连接:为了方便数据的获取和传输,智算中心通常与互联网或其他数据中心建立高速连接,以便获取大规模的数据集和与其他机构进行合作。
(三)先进的管理软件系统
资源管理软件:用于管理计算资源的分配和调度,确保不同的人工智能任务能够高效地利用计算资源。
数据管理软件:负责数据的存储、预处理和管理,确保数据的质量和可用性。
除此之外,智算中心的安全至关重要。
在硬件方面,需加强服务器集群和存储设备的物理安全防护,严格控制机房访问权限,防止设备被非法接触。同时,硬件自身应具备安全机制,如加密存储等,保障数据安全。对于网络连接,要部署专业安全设备,防范网络攻击。
在软件层面,人工智能框架等应及时更新漏洞,严格用户权限管理。数据管理软件要通过加密、访问控制等手段保护数据安全。此外,还需建立完善的安全管理制度,确保智算中心稳定运行和数据安全。
三、智算中心的算力相关技术
(一)AI软件与算法
AI 大模型:超大规模智能模型是利用大量数据训练而成,具有更强的泛化能力和广泛的应用场景。主要分为语言大模型,专注于文本生成、翻译、问答等自然语言处理任务;视觉大模型,专注于图像分类、目标检测、视频理解等计算机视觉任务;以及多模态大模型,能够结合文本、图像、音频等多种类型数据进行处理任务。
AI分布式计算框架:如 TensorFlow、PyTorch 等,主要用于构建和训练大规模深度学习模型。这些框架提供了易于使用的编程接口,以及丰富的算法库和工具,方便开发者进行人工智能模型的训练和部署。
(二)系统与网络
容器化技术:如 Docker 和 Kubernetes,用于简化应用程序的部署和管理过程。能够使开发者快速打包、部署和运行应用,同时确保应用在不同环境之间的一致性和隔离性。
软件定义网络(SDN):SDN 技术允许网络管理员通过集中式的控制器来管理和配置网络资源,从而实现灵活的流量调度和优化。
四、智算中心的应用场景
(一)人工智能数据训练

大规模数据处理:智算中心能够处理海量的数据集,为人工智能算法提供丰富的训练数据,从而提高模型的准确性和泛化能力。
高效计算:凭借强大的计算能力,智算中心可以在较短的时间内完成复杂的人工智能算法训练,大大缩短了模型的开发周期。
(二)人工智能推理

实时响应:在实际应用中,智算中心能够快速响应人工智能模型的推理请求,实现实时决策和智能控制。
高并发处理:可以同时处理多个推理请求,满足大规模应用场景的需求。
(三)推动各行业智能化升级

2024年《政府工作报告》提出,要深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。
人工智能不仅在制造业、服务业、农业、医疗等领域持续赋能,更在科学研究领域表现出突破传统科学研究能力瓶颈的巨大潜力。
“人工智能+”指的是人工智能作为一种基础性、驱动性的技术力量,与制造、医疗、教育、交通、农业等多个领域进行深度融合,创造出新的产品、服务和商业模式,从而推动传统行业的转型升级和社会经济结构的变革。
五、我国智算中心产业的发展现状
自2020年4月,人工智能正式被纳入新基建的范畴,我国已经在20多个城市陆续启动了人工智能计算中心建设。2022年2月,“东数西算”工程正式全面启动,8个国家算力枢纽节点全面开工。
根据中国信息通信研究院2023年发布的《中国综合算力评价白皮书》,截至2022年底,我国算力总规模达到180EFLOPS,智能算力规模占比约22.8%,相比2021年增加41.4%,智能算力增长迅速。
国家互联网信息办公室发布《国家信息化发展报告(2023年)》显示,截至 2023 年底,全国在用算力中心机架总规模已超过 810 万标准机架,算力总规模超 230EFLOPS,位居全球第二。其中智能算力规模达到70EFLOPS,新增算力基础设施中智能算力占比过半,成为算力增长的新引擎。
工业和信息化部在2024 年中国算力大会 「算力中国・创投活力」 论坛上介绍了我国算力运营和使用最新情况。截至 2024 年 6 月底,我国在用数据中心机架数达 830 万标准机架,算力总规模达 246EFLOPS,智能算力规模超过 76EFLOPS。互联互通纵深推进,形成区域集群到周边主要城市之间 5 毫秒的时延保障能力,国家枢纽节点之间 20 毫秒时延的保障能力已全面实现。
专家预测到2026年我国算力总量将超过700EFLOPS。

我国智算中心产业发展具备以下显著特征:
建设规模不断扩大:智算中心以数据为资源,以强大的计算力驱动Al模型对数据进行深度加工,源源不断产生各种智慧计算服务,并通过网络以云服务的形式,向企业提供技术支撑。在人工智能快速发展的今天,智算中心已成为数字经济高质量发展的重要支撑。西南证券分析师叶泽佑指出,未来人工智能技术将更加深入地应用到行业场景中,智能算力将进一步带动产业发展,成为拉动GDP增长的关键力量。各级政府和互联网企业也纷纷开启智算中心建设计划,目前已有超过40座城市布局智算中心。
政策支持力度大:国家和地方政府出台了一系列政策推动智算中心的发展。如 2023 年 10 月,工业和信息化部等六部门印发的《算力基础设施高质量发展行动计划》,对我国的算力、运载力、存力建设和应用赋能做出了目标指引。此后,上海、深圳、北京等重点城市和地区也结合本地需求制定了相关政策。此外,地方政府还通过发放 “算力券” 等补贴算力建设的方式助力产业发展。2024年政府工作报告中指出,深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。
市场需求持续增长:随着人工智能在互联网、金融、政务、电信和制造等领域的应用渗透度明显提升,人工智能技术将更加深入地应用到行业场景中,智能算力进一步带动产业发展,成为拉动 GDP 增长的关键力量。根据中金公司 2024 年 3 月 22 日研报,随着智能算力市场需求的不断攀升,大模型的发展和 AIGC 应用的落地丰富了人工智能的应用场景,企业加码 AI 技术开发和投入,IDC 预计未来三年内中国智能算力需求的复合年增长率(CAGR)将达到 48%。
技术水平不断提升:我国在 AI 芯片、服务器、集群等关键技术领域不断取得突破,部分技术达到国际先进水平。同时,也在积极探索液冷等新技术,以提高散热效率、降低能耗,推动智算中心的绿色发展。例如,智算中心采用液冷技术能有效提高散热效率,提升芯片工作稳定性并降低 PUE 值,随着液冷技术的不断成熟、成本逐渐下降。
总之,智算中心作为人工智能时代的关键基础设施,将在推动各行业智能化升级、促进经济发展和社会进步方面发挥越来越重要的作用。随着技术的不断进步,智算中心的性能将不断提升,应用场景也将不断拓展,为我们带来更加智能、便捷的生活和工作体验。
免责声明:部分文章来源于互联网及其他公众平台,内容仅供读者参考,不确保文章的准确性,如有侵犯版权请告知,我们将在24小时内删除。

