大数跨境
0
0

专题丨数据中心单相浸没液冷规模化应用关键技术研究

专题丨数据中心单相浸没液冷规模化应用关键技术研究 信息通信技术与政策
2023-06-16
0
导读:钟杨帆,刘丹,文芳志,郭锐,刘向东
※  信息社会政策探究的思想库  ※
※  信息通信技术前沿的风向标  ※


作者简介


钟杨帆  

阿里云计算有限公司云基础设施事业部服务器研发架构师,主要从事系统散热架构及液冷技术等方面的研究工作。

刘丹   

阿里云计算有限公司云基础设施事业部服务器研发架构师,主要从事浸没液冷信号完整性等方面的研究工作。

文芳志   

阿里云计算有限公司云基础设施事业部服务器研发总监,主要从事服务器等方面的研究工作。

郭锐   

阿里云计算有限公司云基础设施事业部服务器研发架构师,主要从事服务器系统硬件架构等方面的研究工作。

刘向东   

阿里云计算有限公司云基础设施事业部服务器研发架构师,主要从事浸没液冷机柜和服务器架构设计等方面的研究工作。


论文引用格式:

钟杨帆, 刘丹, 文芳志, 等. 数据中心单相浸没液冷规模化应用关键技术研究[J]. 信息通信技术与政策, 2023,49(5):65-72.


数据中心单相浸没液冷规模化应用关键技术研究


钟杨帆  刘丹  文芳志  郭锐  刘向东


(阿里云计算有限公司,杭州 310000)


摘要:在“双碳”目标引领下,降低计算能耗,推动“绿色计算”十分关键。单相浸没液冷因突出节能优势近年来得到广泛关注。数据中心追求高能效的前提是保证数据中心的高可靠性和高可用性,数据中心的安全性与稳定性以及可持续演进是比节能更重要的指标。为了满足大规模化应用,需要对系统架构的可靠性和演进能力等关键技术进行研究评估。基于全流程的视角,从数据中心和IT设备全局出发,,对不同液冷技术架构支持的可靠性等级,能效水平等进行了梳理,重点对单相浸没液冷系统架构的可靠性,未来演进能力进行了重点研究分析。通过研究分析,以期为我国数据中心单相浸没液冷行业的更大规模化应用发展提供参考。

关键词:数据中心;单相浸没液冷;可靠性;冷却液


0  引言


数字时代,大量的生产生活离不开计算力的支撑。绿色低碳的未来是人类共同的追求,我国已经明确提出“双碳”目标,应对气候变化态度积极明确,行动坚决有力。在“双碳”目标引领下,降低计算能耗,推动“绿色计算”十分关键。发展“绿色计算”需要整体来看,减少数据中心冷却能耗与IT设备散热能耗、提升电能使用效率成为数据中心绿色运行的重要方向。基于全流程的视角,从数据中心和IT设备全局出发,对不同液冷技术架构支持的可靠性等级、能效水平等进行了梳理,重点对单相浸没液冷系统架构的可靠性、未来演进能力进行了重点研究分析。


1  数据中心能源效率发展趋势


业内常用电源使用效率(Power Usage Effectiveness,PUE)评价数据中心能源效率。PUE是数据中心总能耗与IT设备能耗的比值:


公式(1)中,PTot为数据中心的总能耗;PIT为IT设备的能耗。其中,PTot由IT设备能耗(PIT)、冷却设备能耗(PC)、供配电设备能耗(PE)及照明等其他设备能耗(PO)构成。由计算公式可知,PUE的理论极限值为1。此时,所有的能量均由IT设备消耗。然而,这难度极大。因为供电、冷却、照明和监视设备等均是数据中心不可或缺的。PUE值越接近1,表示一个数据中心的绿色化程度越高;PUE虽不能完全反映IT全部效率,但它是衡量数据中心设施(除IT设备)使用多少电力的重要指标[1-5]

如图1所示,Uptime Institute机构对过去十多年全球上千个数据中心的PUE进行了统计分析,随着冷却技术和数据中心热管理技术的不断演进,PUE值得到了明显降低,但近年来,PUE的下降趋势逐步平缓。所以现在数据中心迫切需要更先进的冷却和热管理技术来进一步提高能源利用效率[6]
图1   全球数据中心行业的PUE变化趋势

典型数据中心能耗构成如图2所示。其中,数据中心能耗比重最大的部分为IT设备,其次为制冷系统设备、供配电系统设备及其他消耗电能的数据中心设施[7]。从最初的企业数据机房演进到数据中心,再到现在的云数据中心甚至今后更加细分的边缘数据中心,PUE作为一种简单的指标,经过将近20年的发展,对于反映数据中心的节能水平而言,不足之处已经日渐显现。事实上,PUE目前已经不太能够客观反映数据中心的真实能耗现状。举例来说,要想减少机房制冷能耗,通过提升服务器的进风温度即可实现,但这样反而会提升服务器的能耗。因此,要想真正降低数据中心能耗,还是应该从全局进行把握。数据中心有相当一部分电力用在解决芯片散热冷却上,所以真正用在计算上的用电效率为总电能使用效率(Total-Power Usage Effectiveness,TUE),即总的电力输入/纯IT设备计算用电。TUE是数据中心总能耗与IT设备能耗的比值:

公式(2)中,PTot为数据中心的总能耗;Pp为IT设备中去除供电散热后真正用于算力的能耗。其中,PTot由IT设备能耗(PIT)、冷却设备能耗(PC)、供配电设备能耗(PE)及照明等其他设备能耗(PO)构成。
图2   典型数据中心能耗构成

2  液冷技术的演进

降低数据中心的能耗,单纯从技术角度而言,传统的风冷技术已经显现不足。在这样的背景下,液冷技术是未来的趋势。数据中心的液冷技术是指使用高比热容的液体作为热量传输的工质满足服务器等IT设备散热需求的冷却方式。这种技术是一种先进的节能冷却方法,主要针对高热流密度的场景。热流密度,也称为热通量,是指单位时间通过单位面积的热能,其单位为W/cm2。在高热流密度的场景下,如何带走大量的热,是需要考虑各种限制条件,进行具体设计的。液体的比热远远大于空气,有利于提高传热效率,降低传热耗能。基于这个特点,采用液冷技术对服务器内部的高热流密度芯片进行冷却更加节能高效。

从芯片的应用来看,目前大数据、云计算、人工智能等技术日新月异,对于大功率处理器的需求也增长迅速。这也直接导致了数据中心部署大量的高功率机柜,为各种算力需求提供基础条件。对于大型数据中心,高功率机柜更加凸显节能的重要性,采用液冷解决方案可以直接为数据中心降低能耗,节约大量电费。从早期的房间级精密空调技术到机柜级微模块辅助换热技术,再到冷板式液冷技术,又到全浸没液冷技术,数据中心冷却技术的不断发展表明冷却液体越靠近芯片器件,整体液冷越高效[8-13]

数据中心真正能评估实际用在算力上的用电效率为TUE。如表1所示,以PUE为1.5的风冷数据中心为基准,采用板级液冷,其PUE为1.25,采用全浸没液冷,其PUE为1.09,从PUE值对比来看,板级液冷对比风冷下降16.67%,全浸没液冷对比风冷下降27.33%;风冷的ITUE为1.111,板级液冷的ITUE为1.056,全浸没液冷的ITUE为1.0,从ITUE值对比来看,板级液冷对比风冷下降5%,全浸没液冷对比风冷下降10%;从TUE值对比来看,板级液冷对比风冷下降20.83%,全浸没液冷对比风冷下降34.6%。这表明浸没式液冷技术的成熟和普及应用为数据中心节能降耗带来了全新的解决方案。
表1   不同冷却技术能效对比

3  高可靠单相全浸没液冷系统架构研究

单相全浸没液冷系统是一种新型高效、绿色节能的数据中心冷却解决方案。浸没式液冷技术主要是采用特定的冷却液作为散热介质,将IT设备直接浸没在冷却液中,通过冷却液循环带走IT设备运行过程中产生的热量。同时,冷却液通过循环过程与外部冷源进行热交换,从而将热量释放到环境中去。从整体数据中心到IT设备的制冷架构来看,单相全浸没液冷数据中心没有冷水机组和末端空调,IT设备内部没有服务器风扇,因此其整体技术架构最简洁。整个单相浸没液冷系统主要由四部分组成,包括冷却液体、IT设备、机柜系统、室外散热设备,整体架构如图3所示。
图3   单相浸没液冷系统技术架构

在实际规模化应用时,需要重点考虑系统架构的冗余等级,数据中心追求高能效的前提是保证数据中心的高可靠性和高可用性。数据中心的安全性与稳定性以及可持续演进是比节能更重要的指标。《数据中心设计规范》GB 50174-2017规定,数据中心的使用性质主要是指数据中心所处行业或领域的重要性,最主要的衡量标准是基础设施故障造成网络信息中断或重要数据丢失给经济和社会造成的损失或影响程度。符合下列情况之一的数据中心应为A级:电子信息系统运行中断造成重大的经济损失;电子信息系统运行中断造成公共场所秩序严重混乱。这类数据中心的液冷系统不应有单点故障、单一事件,不应对电子信息设备的运行产生影响。支持电子信息设备运行的液冷系统的任一组件(包括液冷系统自身以及为其服务的冷源、供配电、自控等系统)都可以从服务中拆除或测试,这种维护不会造成供冷中断或供冷不足,不会对电子信息设备的运行产生影响。这一功能可通过设备和分配路径的冗余来实现。数据中心的性能在维护期间可能会降低。为满足A级机房的性能要求,为液冷设施服务的供配电设施、自控设施等系统也需要设有冗余设备和路径,以确保对任一组件的维护不会引起供冷中断或冷却不足,不会导致电子信息设备的运行中断。供电中断时,制冷系统也会中断,从油机送电到供冷完全恢复,大约需要0~2 min。没有不间断供冷设施易导致制冷中断或冷量不足(不同产品以及不同系统架构会影响此段时间的长短)。设置不间断供冷设施,就是为了保证供电中断或有其他事故发生时,制冷不会中断。支持电子信息设备正常运行的液冷设施采用不间断供电电源供电,可实现不间断供冷。

A级机房的液冷系统配置应符合下列规定:

(1)满足B级机房的全部要求;
(2)支持电子信息设备运行的液冷设施应设置冗余,任一组件发生故障或对其进行维护时,不应影响电子信息设备的正常运行;
(3)支持电子信息设备运行的液冷设施的供配电系统、自控系统、输配路径应设置冗余,任一组件发生故障或对其进行维护时,不应影响电子信息设备的正常运行;
(4)A级机房的液冷系统应为不间断供冷设施;
(5)数据中心需要分期部署时,应有技术措施避免新增设备和管路影响已有电子信息设备的正常运行。

传统板级液冷系统的冷板散热部件及分水器是单回路系统,如图4所示,只有一个单线的分配路径,存在单点故障。维护输送路径以及部分无冗余的组件发生故障都会引起数据中心的中断。无法满足A级数据中心对高可靠性的要求。
图4   板级液冷系统架构

单相全浸没液冷技术架构支持高冗余等级设计,可以满足A级数据中心的要求,详细系统架构可参考图5所示。
图5   高可靠浸没液冷数据中心架构

其中,冷却塔将液体回路的热量散到室外,一般放置在建筑物的室外,出水温度取决于当地气温条件,通常出水温度范围为5~32 ℃。冷却液分配装置(Coolant Distribution Units,CDU)用于液冷电子设备间的冷却液流量分配,提供二次侧流量分配、过滤、液体检测等功能。CDU处理全液冷机柜内部的直接液冷部分的散热。其物理形态为机柜式CDU(在全液冷机柜外布置,需要配套二次管路)。一次侧连接外部冷源比如冷却塔到CDU。全浸没液冷机柜的循环水系统,也称为一次管路。图5中绿色箭头表示一次侧进水,黄色箭头表示一次侧回水。二次侧为连接CDU到全液冷机柜中的液冷元器件的冷却液循环系统,也称为二次管路,该系统一般集成在CDU整体,无需单独部署。图5中紫色箭头表示二次侧进液,红色箭头表示二次侧回液。全液冷机柜提供冷却液体进出机柜,对电子设备进行冷却,一般全浸没液冷机柜为全密闭式结构,由冷却液将热量全部带出机柜。全浸没液冷IT设备包括液冷服务器、交换机、光模块等。

单相浸没液冷技术在实际规模化上对比其他液冷技术容易实现在线维护,相对简单,易工程化,适用于通用型云计算与云数据中心。单相浸没液冷数据中心最重要的特征是同时实现高能效与高可用等级,数据中心整体可用性等达到国标A级,能满足规模化应用的高可靠性要求。

4  IT设备兼容性研究

浸没式液冷,其核心要素是将带电运行状态下的完整服务器浸没在冷却液中,因此充当换热介质的冷却液必须是换热能力强但不导电的高稳定介电液体,这样的介电液体通常不溶(或难溶)于水介质,可最大限度保障其绝缘性不被轻易破坏。其本身在气味、毒性、降解难易、可维护性等方面对环境和操作人员应尽可能友好。最为重要的是在部件选型时,浸没在液体的部件需要与冷却液进行兼容性和可靠性的验证,才能保证部件与冷却液的兼容性[14]

基于以上考虑,目前在浸没式液冷领域应用广泛的冷却液主要分为碳氢及有机硅化合物(油类)和碳氟化合物类,如图6所示。
图6   浸没式液冷冷却液分类

市场上绝缘液体众多,对于液体的材料兼容性和可靠性,需要一个有效的规划来筛选和评估以满足业务需要。从冷却液材料的规格书可以发现,其参数众多,对于不同应用场景,需要考量不同的参数,对于浸没液冷应用,如何使其定义标准化对规模化应用至关重要。

在浸没液冷环境下,所有浸没在液体中的材料与冷却液接触,可能同时发生两种作用:一种是材料吸收液体;另一种是材料中的可溶性组分从材料中溶解析出。其最明显的表现就是材料的质量和体积发生变化,即当吸收大于析出时,材料的质量和体积会增加;当析出大于吸收时,材料的质量和体积会减小。使IT设备所有部件都能在冷却液里正常工作是规模化应用的关键技术研究,碳氟类冷却液具有化学惰性以及极高的材料兼容性。碳氢类冷却液的兼容性相对较弱,在规模化应用之前可以探索制定材料兼容性测试规范,用于引入新材料的前期阶段,从而快速判定材料浸泡在冷却液中的兼容性情况。材料兼容性测试为引入新材料的必测项目,通过测试结果可以快速作出判定。

此外,还有部件功能兼容性设计技术,比如IT设备中常见的光模块,是进行光电信号转换用的。当常规光模块直接置于液冷环境中时,冷却液会立即渗透到光学元件的光路中,导致不可预期的光学反射、折射,使得常规光模块无法在液冷环境中正常工作。

所有数据中心机房的硬件组件都是为风冷量身设计的,没有专门适用于浸没液冷设计的版本。当把服务器浸没在液体中时,除了介质从空气变为液体而引起的阻抗变化和多次反射之外,暴露在冷却液里的组件会表现出与空气中不同的信号完整性,从而导致系统工作不稳定,甚至完全不能正常工作。为了让服务器在冷却液里正常工作,需要提前进行高速信号兼容技术研究,特别是在当前数据中心信号传输从16 Gbit/s到32 Gbit/s甚至未来的112 Gbit/s迈进过程中,使用PAM4的PCIe Gen6对码间干扰噪声会比使用NRZ的PCIe Gen5更敏感。系统所面临的设计要求会越来越高,需审慎选择对信号传输影响小的冷却介质。当前在实际应用中通常选择在信号工作频率介电常数较小(Dk≤2)的冷却液。同时需要对IT设备每个关键组件(印刷电路板、传输线、高速过孔、连接器、线缆等)进行优化设计。

5  单相浸没液冷支持芯片能力演进分析

对于当前浸没液冷解决方案,由于整体功率密度不是太高,常采用被动散热器,称为被动浸没液冷,其对流传热类型为混合对流换热:从机柜底部提供一定流量工质+工质密度差浮升力[15]。如图7所示为浸没液冷传热类型分类。
图7   浸没液冷传热类型分类

在实际的应用当中,对流传热既有强制对流又有自然对流,需要制定科学严谨的依据来判断能否忽略自然对流的影响。自由对流,亦称自由对流换热,简称自然对流,指由于各部分温度不均匀而形成密度差,从而在重力场或其他力场中产生浮升力所引起的对流换热现象。

在传热学里应用相似分析法可以发现,格拉晓夫数(Gr)中包含着浮升力与粘滞力的比值,而由惯性力与粘滞力的对比可以得到雷诺数(Re)。需要浮升力与惯性力的对比时,可以从特征数Gr与Re的组合中

公式(3)中,g表示重力加速度,β表示热膨胀系数,ΔT表示散热器表面均温,即环境温度,L表示特征长度,u表示来流速度,v表示运动黏度。
图8   判断自热对流影响程度的依据

通过计算,可以发现在当前单相浸没式系统中,采用被动浸没式液冷技术下,采用不同种类液体对比,>10,说明强制对流计算可以忽略。

从传热学理论中可以了解到,不同流动形态的自然对流传热规律具有不同的关联式,长期以来,由瑞利数(Ra,即Pr×Gr)来判断应该用什么准则来反映自然对流时流动形态的转变,其效果并不理想,本文采用Gr准则来判定传热规律转变的依据,通过计算,得出在被动浸没液冷技术中Gr小于109,所以在液冷工质与热源表面的换热可以被看作竖直平板上的自然对流场景下,采用如下努塞尔特数计算公式(4):
公式(5)中,h表示对流换热系数,β表示热膨胀系数,ρ表示密度,cp表示比热容,λ表示导热系数,μ表示动力粘度。可以发现,换热系数正比于工质部分参数,包含(密度、比热容、导热系数、动力粘度以及膨胀系数)如公式(6)所示:
接下来用M1作为传热优值参数之一进行对比。在自然对流计算中,格拉晓夫数Gr是控制流体流动的无量纲参数,可以用来评判液体的换热能力高低。公式(7)为格拉晓夫数计算公式:

公式(7)中,g表示重力加速度,β表示热膨胀系数,ΔT表示散热器表面均温-环境温度,L表示特征长度,v表示运动粘度。

在单相浸没液冷系统中,采用可以快速对比和评价不同液体换热能力的高低:运动粘度越低,热膨胀系数越高,散热效果越好,其支持的芯片能力就越强。在规模化应用过程中,需要重点考虑芯片的演进,尤其是在算力与人工智能驱动下未来CPU、GPU等芯片性能快速提升的同时,其功耗急剧增加,当前油类冷却液普遍具有高粘度和低膨胀率的特点,无法满足高性能芯片功耗的增长演进。为了支持更大功耗的芯片演进,选择合适的冷却液至关重要。

6  结束语

在单相浸没液冷技术规模化应用探索过程中,如何实现长期平稳可靠的运行是关键,设备的兼容性和支撑未来演进的散热技术是其规模化应用的最基本技术。冷却液不仅具有热传递作用,还与IT设备系统内的所有材料接触。对于其规模化应用,通过对其不同参数进行标准化定义可实现未来的可持续演进。在系统架构层面,阿里云全浸没液冷技术通过创新实现液冷在线不停机维护以满足云计算的连续性要求,同时它具备可在线维护、易工程化的特点,可实现高能效与高可用等级兼备,数据中心整体可用性等级达到国标A级,系统稳定性大幅提高。截至目前,液冷服务器集群已正常运行4年以上,液冷环境下IT设备平均故障率低于风冷50%以上,具有高可靠性。该关键技术的突破实现了液冷技术的大规模化应用。

总体而言,我国数据中心规模化应用液冷技术处在发展初期,尤其是对革命性变革的全浸没液冷技术的研究还不够全面深刻,同时产业链尚不完备是尚未大规模推广的重要原因。需建立完善的行业标准,对IT设备、液冷材料、运行维护、供配电、安全及热控防护等方面制定统一的规范,形成科学的有机整体。

Research on key technology of large-scale application of single-phase immersion cooling in data center

ZHONG Yangfan, LIU Dan, WEN Fangzhi, GUO Rui, LIU Xiangdong

(Alibaba Cloud Computing Co., Ltd., Hangzhou 310000, China)

Abstract: Under the guidance of the carbon peaking and carbon neutrality goals, it is crucial to reduce the energy consumption of computing and promote “green computing”. Immersion cooling has been widely concerned in recent years due to its outstanding advantages of heat dissipation and energy saving. The premise for data centers to pursue high energy efficiency is to ensure the high reliability and availability of data centers. The security, stability, and sustainable evolution of data centers are more important indicators than energy saving. In order to meet large-scale applications, it is necessary to study and evaluate the key technologies such as reliability and evolution capability of the system architecture. From the perspective of the whole process, this paper sorts out the reliability levels and energy efficiency of different liquid cooling technologies by starting from the overall situation of the data center and IT equipment. Then, it focuses on the analysis on reliability and evolution capability of the single-phase immersion cooling technology. It is expected to provide a reference for the large-scale application and development of the single-phase immersion cooling industry in China’s data center.
Keywords:data center; single-phase immersion cooling; reliability; coolant


本文刊于《信息通信技术与政策》2023年 第5期



主办:中国信息通信研究院


《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。



《信息通信技术与政策》投稿指南


为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊官方网站已正式投入运行,欢迎投稿!





   推荐阅读  



专题丨绿色低碳化发展视角下数据中心电算网融合分析
专题丨算网融合产业发展分析
专题丨新一代云网融合数据中心关键技术研究
专题丨以服务为中心的算力网络度量与建模研究
专题丨我国算力网络发展评估体系研究
专题丨算力调度关键问题和实施路径研究
专题丨数据中心发展综述
专题导读:算网融合
《信息通信技术与政策》2023年第49卷第5期目次及摘要


“在看”我吗?

【声明】内容源于网络
0
0
信息通信技术与政策
工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”。
内容 986
粉丝 0
信息通信技术与政策 工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”。
总阅读751
粉丝0
内容986