大数跨境
0
0

数据中心——冷却系统可靠性

数据中心——冷却系统可靠性 AI芯片与散热
2025-11-26
1
导读:数据中心冷却系统可靠性,通过可靠性与可用性的区别,对为何需要可靠性、可靠性需求以及如何定义这三个问题逐步深入探






数据中心冷却系统可靠性,通过可靠性与可用性的区别,对为何需要可靠性、可靠性需求以及如何定义这三个问题逐步深入探讨,尝试解析数据中心冷却系统可靠性的影响因素及提高可靠性的方法。最后,从数据中心行业发展变化,分析数据中心冷却系统可靠性的影响因素。





可靠性与可用性的区别




可靠性是深入探讨数据中心冷却技术可靠性的前提,而从不同角色角度去看时,又是完全不一样的。可靠性最早来自于高成本、高失效风险领域的项目,比如航空航天项目,产品需要通过做大量的测试验证其可靠性,进而计算整个系统的可靠性。数据中心冷却系统可靠性,其实就是一个系统可靠性。在产品设计领域,是从产品设计师角度,从产品提供方质量管控效果的角度来看,可靠性其实就是一个产品型号批次在市场上的“存活概率”。这里的存活,指的就是规定时问内(产品寿命期内),仍然具备产品功能能力的产品概率。从产品角度,可靠性是产品在寿命周期内完好无损地存活下来的概率,是一个统计学意义的概率。对于设备提供方来讲,是其平衡整个投资收益的关键所在。存活概率高,售后服务成本低,用户满意度高,单产品的成本就很低,单产品的收益就高。从用户角度来看,上面提及的产品可靠性,就完全没有意义了上面说的产品可靠指的是产品的存活概率,这个指标对于用户来说几乎没有意义。因为每个用户都希望性自己拿到的产品在使用期内100%不要出问题。所以,从用户角度来讲,使用另外一个概念,叫可用性。用户购买了一个产品,在生命期内可用时长的占比。如果100%时间都可用,则可用性是100%。因此,产品可靠性并不能简单地对等为用户所需要的可用性,特别是对于涉及由众多产品共同组成的系统时,就更为复杂。对于数据中心冷却系统而言,举一个极端的例子,用户可能一次性购买了200台可靠性为99%的某型号空调,组成一个散热系统,共同并联工作满足100%的热负荷,在不考虑冗余的情况下,任何一台空调的失效,都会让这个系统的散热失效(不能满足恒定温度的要求)。那么,这时200台空调散热系统的可靠性就只有13.4%。虽然在物理形式上是200台空调并联工作,但从可靠性交付,这是一个串联系统,即任何一个产品的失效,整个系统就失效。


可见,这个差异是巨大的。所以,对数据中心冷却系统可靠性影响最大的角色是冷却系统的设计人员。




为什么需要可靠性




从产品提供者和使用者两个截然相反的角度,去看同一个问题“为什么需要可靠性”,答案是完全不同的。从两个不同角度去理解,更利于数据中心冷却系统从业者,包括业主、运维人员、设计人员、租户等理解可靠性,并在可靠性方面更容易达成共识。从产品提供者的角度,为什么需要可靠性呢?如前所述,可靠性对于产品提供者而言就是其售卖产品的存活率,也就是故障率。而故障率决定投诉率,投诉率决定着品牌的价作。一个产品提供者,其利润一产品售价一产品生产成本一产品售后服务成本。产品售价由品牌,即用户满意度决定,也就由产品投诉率决定。每个产品生产成本三产品原材料成本+生产成本均摊,而生产成本的均摊存在一个规模分摊效应,特别是初期开发这个型号产品的研发成本、生产制造设备的投资成本和经营管理成本。如果产品产量越大,这些成本分摊就越小。同时,如果产品产量越大,其采购原材料的成本也会降低,因为上游产品量大了,其上游产品的摊销成本也降低了。而产量由销量决定,销量取决于产品的价格和可靠性。产品售后服务成本,则完全取决于产品的可靠性,可靠性高,则存活率高,单产品服务成本的摊销自然降低。


因此,可靠性高,决定了产品售价可以更高,可靠性高,产品销量高,则产品生产成本低;同时,可靠性高的产品售后服务成本更低;综合,产品提供者的利润是最高的。唯一需要平衡的,可能是售价与可靠性的关系。如果可靠性高,但售价过高,销量太低,则产品的成本就会太高,利润得不到最大化。在实际商业案例中,有些公司的产品其可靠性一般,但其加大在售后服务的投人,让用户感知不到可用性的损失,比如及时更换新的设备,可能用户的可用性损失也不大。况且,不是所有的客户都真正的要求100%的可用性。就这样,通过售后服务的投人,降低的产品投诉率,提高产品满意度,提高产品品牌价值。产品的销量增加了,销售价格也并不低,从而达到了产品利润最大化的目标。所以,从产品提供者角度考虑可靠性,其实是实现产品利润最大化的关键所在,特别是在成熟且竞争充分的市场。


从用户的角度准,为什么需要可靠性呢?每一个用户每天都在使用着各种各样不同的产品。用户对于产品可靠性的需求,不是产品提供者所宣称的可靠性。而是所购买的产品及服务具备的可用性。暂先不考虑互联网行业日益强调的体验一说,产品及服务的可用只考虑产品功能的可用。用户关注的是,在需要功能的时候,产品是否可以提供此功能。所以,在用户为什么需要可靠性这个问题上,其实,用户需要的是可用性。数据中心业主需要的是冷却系统的可用性。因此,在接下来的表述中,除非特别强调,一般均是从用户即使用者角度,来表述冷却系的可靠性,即可用性。





数据中心冷却系统的可靠性(可用性)




数据中心冷却系统的可靠性从不同的视角看待,能够得到不同的答案。敬据中心产品和服务提供方与数据中心使用和拥有方,是完全不一样的视角与立场。各方都站在自身利益最大化的角度去考虑和设计数据中心冷却系统,从而满足自身利益最大化的诉求。在此过程中,也就必然存在着平衡。对于数据中心从业者来说,换位思考,全面、清晰、完整的界定数据中心冷却系统的可靠性需求,将利于项目各方确保可靠性(可用性)预期与结果的一致性。


如前所述,可靠性的本质是可用性。既然是可用性,就必须知道用它做什么?以及怎么用?“数据中心冷却系统”是什么呢?冷却系统又称为暖通空调系统,是为某一特定目标空间捉供并维持特定的温度、湿度,洁净度的环境,数据中心冷却系统的服务对象是一堆机器,一堆服务器、存储、交换等IT设备,这些设备是用来进行数字信息的计算、存储和交换用的。这些对象的特点是工作就耗电,耗电就发热。且从能量守恒的角度来说,耗电量儿乎100%都变成热量散发出来了。而且,大部分情况下,这些机器都需要7×24小时 365天不间断的工作,也就意味着,数据中心冷却系统需要7×24小时 365 天不间断的工作。据ASHARE组织的服务器厂商测试数据,如图2.3-1所示,服务器进风温度的升高,会带来服务器失效率的提高。



数据中心冷却系统的可靠性是由其服务的对象的可用性需求决定的,就是由设备(如服务器)的可用性决定。而IT设备的可用性要求,是由运行在IT设备上的软件、所支撑的服务的可用性要求决定的。而这些信息服务的可用性,最终是由使用这些信息服务的用户需求所决定的。用户可能是每一个个体,如百度搜索服务、百度地图导航等。也可能是某一个组织,如百度广告营销系统蜂巢、百度云、百度人工智能开放平台等。这些服务的可用性,就如同一个物理产品的产品经理在确定产品可靠性指标时一样,这个服务的产品经理依据用户及使用场景等情形,确定服务的可用性。由服务器可用性,导向网络可用性和IT服务器可用性,进而得出数据中心冷却系统的可用性需求。严格来说,这是一个复杂的计算和推理过程。在实际中,往往数据中心冷却系统就按照7×24小时365天可用性来要求了。 


在互联网云计算时代来临之前,一个I系统,服务对象是很少的。比如一个企业的邮箱系统,就服务于企业的几千或几万名员工,邮箱系统的软件安装在企业数据中心的服务器上。介于这个企业的规模,可能需要几台或几十名服务器就可以满足整个企业邮箱系统的需求了。那么此时对于这个邮箱系统而言,一个房间就足够布置这些服务器了,同样,意味着一个冷却系统就足以满足这些服务器的散热需求了。到了互联网云计算时代,满足几十亿人使用的百度搜索,需要远远超过一个房间的服务器来满足搜索业务的使用需求。自然,一个冷却系统是远远不够的。


总结一下,数据中心冷却系统的可靠性是由其服务的IT设备的可用性决定的。同时,一个冷却系统的大小与某一个业务对应的IT设备的集群大小是否一致,也决定了冷却系统可靠性的定义。数据中心冷却系统的可靠性需求就是,一个冷却系统的可靠性需求是其所服务的全部IT设备所支持的各类信息服务的可用性的求和。所以,在云计算时代,数据中心冷却系统的方案设计人员必须注意到,冷却系统的大小需要与业务对应的IT设备集群规模保持一致。不然就会出现冷却系统的可靠性(可用性)与IT设备的可靠需求不一致的情况出现。



如图2.3-2所示,冷却系统2的失效,必然会影响到可先有规模一致,才有可用性一致的原则。往往越来越多的数据中心,出现这种不一致的问题,导致故障发生带来意想不到的业务损失。无论是数据中心冷却系统的产品提供方、系统设计者,还是数据中心冷却系统的业主、使用者,数据中心冷却系统可靠性的需求,由其服务器的IT设备可用性需求及场景特点决定。在不能准确获知其可用性需求及场景特点的情况下,数据中心冷却系统需确保其规模(范围)与所服务IT设备的规模对等。




冷却系统可靠性(可用性)影响因素




对于产品的使用者,数据中心业主对于数据中心冷却系统的可靠性需求,其实就是对其购买产品的可靠性结果的期望,而这个可靠性的结果对用户来说就是可用性。总结来说,对于用户,可靠性是目标,可用性是结果。90%可靠性的产品,其结果可能仍然是100%可用性。


本小节以目前大型数据中心应用最多的大型水冷系统为例,探讨数据中心冷却系统可靠性(可用性)与哪些因素有关,以及如何提高数据中心冷却系统可靠性。图2.3-3所示为某数据中心大型水冷系统的架构图,通过不同的部件(如末端、水泵、冷水机组、冷却塔等),设计并组成这个数据中心冷却系统的目的是为了确保某一特定建筑或区域内的温度稳定(即维持服务器工作所需要温度环境)。而当今各种设备的自动化水平越来越高,大型水冷系统也趋于自动化运行。此时,在考虑系统可靠性时,就必须也纳人这些自动化控制系统同步考虑。



对于冷却系统可靠性(可用性)的目标,绝大部分情况下是希望这个系统在其生命周期内100%是可用的。对于绝大部分的数据中心,冷却系统的可用性就是7X24小时365天持续不间断的需求。当然,也存在比如某些实验机房或承担离线业务为主的机房,其可用性仅仅是5X8小时间断性的需求。所以,每一个用户务必清晰地知晓自身的场景需求,定义好冷却系统的可靠性(可用性)需求。虽然,总是追求100%的可用性,但往往很多时候用户是接受99.99%或其他几个“9”的可用性的,也就是说允许每年出现一定时长的不可用。


几个“9”的可用性(可靠性)是经常听到的概念,下面来尝试计算一下。比如第三方租用数据中心,经常涉及与租用即用户签订租约,租约中往往很重要的一个条款就是用户机柜的可用性。这里的可用性,其实就是用户机柜的供电和散热的可用性。



通过计算,可以发现其中的一些“奥妙”。不同的计算公式,带来的可用性几个“9”的结果是完全不一样的。如图2.3-3所示,对于一个没有任何冗余的大型水冷冷却系统而言,不可用的时长将由以下几部分组成:


(1)部件或设备有计划的停机维护保养,造成的系统不可用时长(如:水泵添加润滑油、换热器清洁灰尘等时长);


(2)任一部件或设备在可靠性概率下的失效造成的系统不可用时长(如:水泵轴封泄露,更换及维修时长);


(3)冷却系统中,控制系统的软件或硬件故障,造成的系统不可用时长(如:控制失效,人工介人手动运行的响应时长)。


而对于设备在可靠性概率下的失效,设计者不可能考虑同一时刻发生多种故障的情形。因此往往只考虑同一时刻发生一种故障的情形。所以,为了实现100%的可用性,以上系统架构图需要实现不同层级的冗余设计:


(1)部件/设备冗余设计(水泵、冷机、末端、冷却塔等);

(2)冷量输配管路系统冗余设计(管道、阀门等);

(3)控制系统冗余设计。


通过冗余设计,满足设备有计划维护的情况下,系统可用性不受影响(这就是被行业广泛接受的 Uptime TIER标准中的TIERⅢ等级--可在线维护)。通过冗余,满足任意设备失效的情况下,系统可用性不受影响(这就是TIERW等级--故障容忍)。即使是故障容忍的数据中心,也仅仅能够保证在一次故障发生时,系统可用性不受影响。而在整个数据中心寿命期内,这是无法完全保障的。而往往大多数的设计,并不对自控系统进行冗余。因为人工介人手动运行的响应时长往往较短,一个健康的运维体系可以做到分钟级的介人,其可用性可以保证在“5个9”的水平。


如何提高数据中心冷却系统的可靠性?以下将以无任何冗余的系统、冗余动力部件的系统、全部部件均冗余的系统和系统级冗余的系统4种情形来分别介绍。如表2.3-1所示,这个典型的数据中心冷却系统由风冷冷水主机、水泵、管路、阀门、冷水精密空调等组成,每个设备均有其自身的可靠性(以上数据仅供参考,主要对比系统架构不同带来的差异),以及停机保养需求。可靠性是各设备在其正常保养政策下,寿命期内保持功能可用的概率。停机保养是指设备需要完全停止工作,来进行必要的保养、维护和部件更换。管路系统和阀门在大多数情形下,一般都不执行任何的停机保养。








图片

免责声明:资料来源壹天讲学,我们尊重原创,信息真实性,也乐于分享。如有侵权或涉及版权等问题,请第一时间联系我司 15221898851 进行删除处理,谢谢!


【声明】内容源于网络
0
0
AI芯片与散热
聚焦AI芯片、数据中心、通讯、光模块、人工智能、新能源等领域的前沿技术及信息发布。
内容 57
粉丝 0
AI芯片与散热 聚焦AI芯片、数据中心、通讯、光模块、人工智能、新能源等领域的前沿技术及信息发布。
总阅读116
粉丝0
内容57