分析了智算业务模型对供电系统的挑战,提出了适合当前智算中心业务模型的DR环网供电架构,并与典型2N供电架构在技术特点、运维响应、建设和运营成本上进行了对比分析,为智算中心供电系统的规划设计探讨一种新的思路。
关键词:智算中心;DR架构;2N架构;环网供电
本文从智算中心的业务模型着手,挖掘出DR环网供电架构能较好的匹配智算中心的业务需求,并对比分析了2N供电架构与DR供电架构的投资成本和运营电费的差异,结果显示,在以上的框架下,DR环网供电系统各方面表现优异,是智算中心值得推广应用的新型供电架构。
01 智算中心业务模型对供电系统的挑战
1.1 算力服务器电源模块的冗余配置
对数据中心行业而言,服务器电源是数据中心供电系统建设的核心。 在通算中心(传统数据中心)时代,通用CPU服务器电源功耗较小,通常在300~700瓦之间,常见电源冗余配置为1+1 冗余形式。 随着智算GPU芯片功耗的提升,算力服务器功耗持续升级。以英伟达(NVIDIA)服务器 的电源结构为例,英伟达(NVIDIA)DGXH100服务器,8U机架安装,输入电压:200-240V交流电,电源规格:最大10.2kW,200-240V/3300W/16A/50-60Hz。 DGXH100服务器电源架构是N+2的电源冗余的架构(见图1-1),正常需要配置6个IEC C20接口的开关电源。如果采用传统的末端配电架构,机柜内配置左右共两个PDU电源,左右PDU电源分别接三个开关电源,当其中一路PDU电源中断服务器仅剩余三个电源工作,DGXH100服务器则会宕机。因此,末端配电需要配置三条PDU电源,全链路三路独立电源是较为合理和推荐的方案。
▲ 图1-1 智算中心电源配置示意图
1.2 智算业务负荷特性由静态曲线到动态曲线的挑战
通算中心(传统数据中心)上线运行以后,负载相对比较平稳,很少有极端情况负载波峰或谷底出现,而智算中心的负载运行特点是不断进行训练任务来进行高速运算,当它开始训练任务时,负载将会迅速上升到比较高的功耗值,甚至会达到负载的极限值,而等到这次训练任务结束以后,它的负载又会迅速下降,降到最低值。由此可以得出结论,智算中心的负载波动情况非常大,呈现出新的动态负载特性(见图1-2)。新的动态负载特性主要表现为周期性、大幅度、并发性、瞬时冲击等,这种特性对于智算中心的配电系统是一个很大的挑战。
▲ 图1-2 典型AI算力集群负载动态功耗曲线图
1.3 智算负载分级供电的变化
为确保通算中心(传统数据中心)负载的连续性供电,通算中心通常采用来自两个不同变电站的两路市电作为电源, 采用柴油发电机作为本项目的备用电源。当某路市电故障,另一路市电能迅速接入,当两路市电完全中断时,柴油发电机自动启动供电,同时配置不间断电源UPS和电池,确保柴发启动前的电力系统不会中断。 和通算中心不同,智算中心的供电连续性要求已发生变化,并不是所有负载都需要不间断供电。智算中心的推理业务负载属于关键型负载,如推理、存储与云服务等仍需配置后备电源,而训练业务则属于可间断负载。当发生故障或断电, 训练业务负载将模型保存为“检查点”,电源恢复后可以从中断点继续运行,因此,智算中心的训练业务负载对业务连续性,容错性和可用性的诉求也发生改变。相较于昂贵的服务器成本,平衡不间断电源供电的成本与服务器因断电损坏的潜在风险是智算中心面临的新挑战。
02 DR环网供电架构
2.1 采用DR环网供电架构,其低压电源采用3DR分布式冗余,匹配智算服务器电源冗余要求
3DR分布式冗余系统,冗余配置为2+1,与智算中心算力服务器电源4+2的冗余需求完全匹配。
▲ 图2-1 3DR分布式架构示意图
3DR分布式冗余系统将电源设备的负载率从2N架构的50%提高到66%,降低了投资和运行成本,对动态波动性负载尤其重要。
2.2 DR环网供电架构,其中压电源采用环网架构,简化了传统2N中压电源配置结构
传统2N供电架构采用树干式配电结构,成本高、电源投切逻辑复杂,DR环网供电架构,采用环网供电结构,将中压油机改为低压油机,成本低,仅需要在电源进线处和环网常开断点处设置自动操作装置,投切逻辑简洁高效。
▲ 图2-2 DR环网供电架构示意图
传统2N供电架构采用中压柴油发电机并机输出,无法实现智算业务分级供电保障的要求。DR环网架构采用低压柴油机与变压器联锁供电,电源转化时间更短、系统简洁可靠,颗粒度更匹配业务需要,可依据智算业务需求来决定是否投入备用电源系统,整体投资成本获得大幅优化。
▲ 表2-1 2N供电架构与DR环网供电架构主要成本对比分析
由表2-1两种供电架构的主要成本分析可知,在建设成本方面,DR环网供电系统建设成本比2N供电系统降低14.43%,若按供电系统站全部成本的55%测算,DR环网供电系统比2N供电系统在全投资成本上下降约7.93%。
在运营阶段,由于3DR系统的负载率为66%,高出2N系统50%的负载率,按系统平均损耗10%测算,年预期电费下降2.5%。
03 结尾
由于低压供电半径不宜过大(消除距离造成的压降会导致线路成本上升),智算中心做平面规划时,建议考虑低压柴油发电机按楼栋布置,且按室内发电机房考虑,这样有利于低压柴油机系统的成本控制和良好运行,使得DR环网供电架构能真正解决问题,被用户接受和推广使用。
参考文献
1、晁怀颇——浅析数据中心高可用供配电系统[J].智能建筑电气技术,2019,13(06).DOI:10.13857/j.cnki.cn11-5589/tu.2019.06.006
2、钟景华——数据中心供配电系统架构及备用电源的选择[J].建筑电气,2018,37(1):3-7.
3、许京哲、叶建——市电及应急发电机联动控制逻辑设计研究 [J].智能建筑电气技术,2024,18(02).DOI:10.13857/j.cnki.cn11-5589/tu.2024.02.023
4、及雪、李可欣、王玥怡——数据中心IT架构技术方案应用研究 [J].智能建筑电气技术,2024,18(04).10.13857/j.cnki.cn11-5589/tu.2024.04.022
5、王亮——某数据中心供电系统切换逻辑分析[J].智能建筑电气技术,2021,15(01).10.13857/j.cnki.cn11-5589/tu.2021.01.010
6、钟景华、丁麒钢、朱立伟、曹播——新一代绿色数据中心的规划与设计[M].北京: 电子出版社,2010.
7、钟景华等——中国数据中心运维管理指[M].北京:机械工业出版社,2016.
8、王厚余、卞凯生、姚家祎等——工业与民用配电手册 第四版[M].北京:中国电力出版社,2016
9、Schneider Electric——电气装置应用(设计)指南.2017版[M].北京:中国电力出版社,2017.
10、中华人民共和国住房城乡建设部.——数据中心设计规范:GB 50174—2017[S].北京:中国计划出版社,2017.
11、中国建筑标准设计研究院——数据中心工程设计与安装:国家建筑标准设计图集 18DX009 中国计划出版社.2018.
12、深知社、维谛技术(Vertiv)——智算中心基础设施演进白皮书.[2024-08].https://www.vertiv.cn/zh-CN/about/news-and-insights/articles/white-papers/evolution-of-intelligent-data-center-infrastructure/
本文为作者原创,仅代表作者个人观点,转载请注明出处。

