作者简介
刘鑫宁
中国信息通信研究院云计算与大数据研究所工程师,长期从事液冷领域相关研究工作。
谢丽娜
通信作者。中国信息通信研究院云计算与大数据研究所数据中心部副主任,长期从事算力基础设施、智能计算、液冷等领域相关研究工作。
邵剑峰
中国信息通信研究院云计算与大数据研究所工程师,长期从事算力基础设施、液冷等领域相关研究工作。
论文引用格式:
刘鑫宁, 谢丽娜, 邵剑峰. 冷板式液冷盲插快接头解耦问题研究[J]. 信息通信技术与政策, 2025, 51(2): 40-45.
冷板式液冷盲插快接头解耦问题研究
刘鑫宁 谢丽娜 邵剑峰
(中国信息通信研究院云计算与大数据研究所,北京 100191)
摘要:信息技术的快速发展使得数据中心对高效散热的需求愈加迫切,液冷技术逐渐成为解决该问题的方案,其中冷板式液冷技术由于可靠性高、易维护、改造成本低等优势成为当前主流的液冷散热方式。盲插快接头是冷板式液冷系统中的重要零部件,在操作效率、可靠性、安全性等方面具有显著优势,是保障液冷系统高效运作的核心元件之一。通过分析冷板式液冷系统中盲插快接头的重要性及关键特征,指出当前盲插快接头的解耦困境,并进一步提出冷板式液冷系统中盲插快接头的发展路径及建议。
关键词: 冷板式液冷;快接头;盲插;流体连接器
0 引言
人工智能、大模型、多模态、云计算、大数据以及区块链等新兴技术的蓬勃发展,使得数据中心算力面临着极高挑战。高算力衍生的高能耗主要表现在两方面:一是芯片功耗,尽管当前芯片的晶圆制程一直在迭代优化,但对于芯片功耗控制的边际效应日趋明显,单个图形处理器(Graphics Processing Unit,GPU)芯片的功耗正从700 W向1 000 W以上攀升[1],芯片运行温度严重影响其稳定性,因此大功耗芯片的散热问题成为服务器设计的关键;二是机房能耗,芯片功率密度提升的同时也带来整机柜功率密度的增长,受数据中心建筑面积与单位运营成本等因素的影响,传统风冷系统的散热极限一般为20 kW/柜[2],散热效率较低。
近年来,随着政府对绿色节能发展的倡导,我国对数据中心电源使用效率(Power Usage Effectiveness,PUE)的要求愈发严格[3]。高密度计算需求的增长和相关政策的驱动使得液冷技术未来将成为数据中心不可或缺的选择。
1 冷板式液冷的现状与挑战
1.1 发展现状
当前液冷的多种技术路线中,冷板式液冷已经成为应用较为成熟的解决方案,它通过冷板靠近高发热元件,利用冷却液带走主要热量,同时增设风冷单元处理低发热元件的热量,实现高效散热[4]。相较于其他液冷技术,冷板式液冷技术对机房配套设施和服务器的改造幅度较小,能够与现有风冷系统兼容使用,并且维护相对简单,能够实现在线插的同时不影响其他服务器的正常运行,其可实施性、技术成熟度和安全可靠性都相对较高。根据IDC报告显示,2024年上半年中国液冷服务器市场中,冷板式液冷技术市场份额已达到95%以上[5]。
1.2 应用挑战
随着数据中心对液冷技术需求的提高,液冷规模化部署势在必行。然而,当前不同厂商产品无法解耦的问题对冷板式液冷的规模化部署构成了显著障碍。2023年,三大运营商联合发布的《电信运营商液冷技术白皮书》指出,当前服务器与机柜深度耦合,尚无统一的接口规范标准,各家产品形态各异、标准化程度低,难以实现标准化、规模化推广应用[6]。如何实现液冷机柜与服务器节点的解耦,促进液冷技术规模化部署成为当前业界关注的问题。
冷板式液冷的规模化部署同样依赖于高度的可靠性,其中漏液问题是不容忽视的安全隐患。为应对这一风险,业界已研究诸多措施,如部署漏液检测系统,设计冗余结构和应急处理机制,加强人员培训和定期维护等,然而更重要的是针对液冷系统的关键零部件做好密封处理。
综上所述,冷板式液冷系统在高效散热方面展现出良好的发展前景,解决其可能发生的漏液问题以及组件间的解耦问题是促进该技术规模化部署的重点。快接头在冷板式液冷系统中数量较多,又属于漏液较为高发的环节,因此对其进行标准化研究对确保冷板式液冷系统长期稳定运行具有重要意义。
2 冷板式液冷盲插快接头的重要性及特征
2.1 概述
快接头,也称流体连接器,是冷板式液冷系统中的关键连接组件,主要用于分集液器(Manifold)与液冷节点之间的连接与关断,通常由公头(插头)和母头(插座)组成,公母头在Manifold和服务器上各有一个,互相配对使用。由于液冷服务器的关键在于防泄漏,而快接头在插拔过程中容易出现密封失效等问题,因此业界对快接头的密封性提出了极高的要求。根据插拔形式,快接头可分为手插和盲插两种,其中,手插是依靠机房运维人员手动进行插拔操作,而盲插则是通过快接头模组实现服务器机架与机柜之间的液体自动连通与断开。
考虑到手插快接头在市场上应用时间早,在设计上呈现高度的多元化和差异化,在标准化和统一化方面面临较大挑战。因此本文以盲插快接头为研究对象,如图1所示[7],通过分析其关键特征和解耦困境,为其的发展提供参考。
图1 冷板式液冷盲插快接头的位置示意图[7]
2.2 重要性
当前数据中心正逐步向自动化、智能化方向转型,盲插快接头即插即用、无需精确对准的特点不仅契合未来数据中心自动化运维的场景,顺应了数据中心高效、智能、集约化的发展趋势,还节省了人为操作空间,满足了高算力环境下对高密机柜的严格要求,降低了运维复杂度。
作为确保冷板式液冷系统高效、可靠运行的关键零部件,盲插快接头正面临与单一厂商绑定程度较深、产品互配难的困境。国外由开放计算项目牵头出台的通用盲插快接头(Universal Quick Disconnect Blind-Mate,UQDB)规范已在探索解耦问题上奠定了一定基础[8],如图2所示。我国算力中心领域针对盲插快接头的标准和规范还较少,已经出台的标准很少以盲插快接头或快接头作为单一的规范化对象,往往将其作为液冷服务器某一部件进行规范。尽管如此,业内已经充分认识到盲插快接头标准化的必要性,为推动这一进程开展了诸多合作并出台了相关报告。
图2 UQDB标准液冷快速接头示意图[8]
2.3 关键能力
2.3.1 密封性
盲插快接头作为直接与冷却液接触的零部件,对密封性能的要求极为严苛。一方面,盲插快接头要保证液冷系统连通时的密封性,即当冷却液通过或等效通流直径与工作流量不匹配时,能有一定的冗余设计以保证密封圈不会被冲掉,且冷却液中的杂质不会划伤或附着密封圈而造成泄漏[9-10];另一方面,还要保证其在插拔过程中的密封性,即盲插快接头要有“干式断开”能力,在连接和分离过程中能够实现自动密封,液体不会泄漏。
2.3.2 耐久性
盲插快接头的耐久性关系到液冷系统的长期可靠性。冷板式液冷系统要求盲插快接头具备一定的耐高低温和耐腐蚀的特性,以确保在长期使用中不会因材料老化或结构失效而导致泄漏或故障。此外,盲插快接头在运维过程中需要频繁插拔,因此快接头的壳体材料和镀层均要求具有较强的耐磨能力,以提高快接头的使用寿命,减少更换和维修频率,从而降低运维的时间和成本。一般来说,盲插快接头的材质往往采用高强度材料(如不锈钢、紫铜等)制造[11]。
2.3.3 浮动能力
浮动能力是实现盲插快接头准确对接的重要因素。在冷板式液冷系统中,盲插快接头是通过与外部结构的配合进行锁紧,由于机械零件在制造过程中存在不可避免的尺寸公差,在对接过程中,尺寸公差的累积易导致机架在机柜中难以达到准确位置,采用固定式的快接头很可能无法适当对齐连接。因此,盲插快接头往往需要在公头与母头之间增加导向机构或浮动装置进行对齐和误差补偿,以确保服务器机架与机柜之间的快接头可以顺利地对插导通[12]。
2.3.4 流通能力
盲插快接头的流通能力会影响液冷系统的整体散热效率。流通能力是指快接头前后压差固定时,介质流经接头的最大流量,可用流量系数表示。流量系数越大,表明快接头流通能力越强,相应地,介质流经接头所需克服的局部阻力也更小。现有的冷板式液冷系统是服务器与特定的机柜、冷却液、管路等部件的高度耦合,二次侧总流阻需要适配泵的扬程,因此对盲插快接头的流阻优化有助于降低系统局部阻力,减小泵需克服阻力的做工,进而提升系统散热效率。提高快接头流通能力有多种方法,包括内部结构设计优化、材质优化等。
3 冷板式液冷盲插快接头的解耦困境
3.1 产品设计
盲插快接头种类众多,厂商对自家产品设计的侧重各有不同,主要包含自身的结构、兼容误差的方式以及厂商的公差3个方面。
在盲插快接头的自身结构上,等效通流直径和插合行程的差异是影响解耦互换的主要原因。等效通流直径是指快接头公母头插合后阀芯等效通过流体的直径,当前主流快接头的等效通流直径存在英制尺寸和公制尺寸两种形式。插合行程是指公母头插入至规定位置,阀芯打开的程度满足等效通流直径要求,该部分通常由快接头厂商自行设计,也有可能根据服务器厂商的需求,进行插合行程的匹配性设计。
在兼容误差的方式上,盲插快接头在实际应用中采用自动化对准方式来避免失误操作,在公母头对插的过程中,需要依靠自身或外部装置提供的浮动量来兼容误差从而实现精准对插。此过程中不同厂商的盲插快接头在有各自兼容误差的方式,主要有3种:通过自身径向浮动能力兼容、通过外部浮动模组兼容、通过自身浮动能力搭配浮动模组兼容。这些差异化的设计虽然各有优势,但也导致了产品之间的互配性较差,难以实现跨品牌或跨型号的通用连接。
在厂商的加工公差上,盲插快接头在制造过程中需遵守严格的加工公差,这对快接头厂商的研发能力、设计和制造经验提出了较高的要求。在实际制造的过程中,厂商可能由于成本或自身工艺限制,采用较宽松的公差,导致产品在尺寸上存在一定偏差,影响互配性和性能表现。
3.2 产品性能
盲插快接头在产品性能上存在较大差异会显著影响其互配性。当前厂商在设计和制造过程中采用的材料、工艺和精度标准不同,导致产品在耐久性、流通性和密封性能上表现不一。以流量设计为例,某些厂商会通过优化流道形状和尺寸来实现更好的流通能力,因此即使是同一型号的快接头可能会存在由于不同厂商内部流道设计、加工精度、流量测试标准和性能验证方法的不同,而导致实际流量各不相同。这些差异使得不同盲插快接头在互配时出现冷却液分配不均、压力损失过大,甚至引发系统故障等问题。
3.3 专利保护
当前国际上为推动互联解耦规定了UQDB的部分尺寸,在一定程度上成为了行业通用,但其内部设计还是由各厂商自主完成,导致产品之间不能完全互配。盲插快接头在自身结构以及兼容误差方式上各有不同,这些差异化的技术创新的同时也催生了诸多专利,如有针对盲插快接头自身快速连接和断开能力、插合行程的专利;有针对浮动模组的专利,保证插合过程中倾斜、深度和位置问题。这些专利涵盖了从接口设计到连接机制的多个方面。然而,专利保护在鼓励创新的同时,也形成了技术壁垒,加剧了互配难题。因此,如何在保护知识产权与推动行业标准化之间找到平衡,成为解决盲插快接头互配性问题的关键。
3.4 责任划分
液冷盲插快接头在互配解耦的过程中涉及流程较多,存在责任划分难统一的问题。首先设计与制造标准模糊不清,由于缺乏统一的标准规范,无法认定制造出的产品是否符合设计要求,因此当产品出现问题时难以确定是设计方还是制造方出现问题。其次,测试认证规范及机构匮乏,产品缺乏权威的第三方测试认证机构的严格监测和评估,导致出现故障或兼容性问题时,难以判定是自身产品质量未达标准还是使用环境等其他因素诱发的原因。最后是信息传递不准确导致的责任认定问题,液冷盲插快接头的设计、使用、维护全生命周期中涉及诸多参与方,任何一方在使用过程中发现问题未能及时反馈都会延误处理,且当出现问题时,各参与方可能会出于自身利益考虑,互相推诿责任,不愿意主动承担或积极配合解决问题,从而使责任界面划分陷入僵局。
3.5 兼容性
盲插快接头在解耦互配过程中的兼容性问题主要在于冷却液成分多样。当前冷板式液冷系统适配的冷却液主要包括乙二醇溶液、丙二醇溶液、去离子水等,在制作工程中会根据需要添加杀菌剂、防腐剂、缓蚀剂等以保证其洁净度[13],因此会存在洁净度的差异。盲插快接头密封圈在选择和制作上要考虑与冷却液选型的兼容问题,流动过程中这些颗粒可能会沉积在快接头内部或周围,造成堵塞或者增加摩擦阻力,对快接头的耐腐蚀性、密封性等造成破坏。
此外还需要考虑盲插快接头本身的金属材质与冷却液的兼容性。一般来说,大部分金属都可以与主流的冷却液进行兼容,但为保证液冷系统连接的可靠性,还要避免系统其他材质与盲插快接头本身材质之间存在的电位差而导致的电偶腐蚀问题。
4 冷板式液冷盲插快接头发展建议
4.1 推进标准化研究
随着冷板式液冷技术的广泛应用,作为冷板式液冷系统核心组件的盲插快接头,其市场需求也必将随之增长。然而,当前业界不同厂商接口无法互配问题制约了液冷技术的规模化推广。在此背景下,推进盲插快接头标准化研究是促进不同厂商产品间互联解耦,实现多样化场景中的通用性和互换性的关键举措。目前相关行业组织和标准机构已在逐步开展针对盲插快接头的规范化研究,未来建议将解耦交付模式与零部件标准化研究紧密结合,并鼓励产业链上下游共同参与液冷标准制定及生态建设工作中,降低液冷技术的应用门槛和项目建设成本,加速液冷技术在计算产业中的规模化应用。
4.2 开展第三方验证评估
可靠性试验是检验盲插快接头性能的关键步骤,也是推动产品质量、性能持续提升的有效路径。现阶段由于盲插快接头尚未形成统一的测试标准,在测试验证过程中需要针对不同厂商的同类产品设计多个版本的试验方案,大大增加了测试的工作量和成本。与此同时,处于不同设计标准下的产品有极大概率会呈现出多样的测试结果,而产品自身设计差异易导致无法用统一且可量化的质量基准对产品进行评定,阻碍了产品的筛选与改良。因此,有必要建立统一的测试标准并开展第三方验证评估,通过公开、透明、公正的技术分析,形成专业且产业共同认可的测试验证结论,推动盲插快接头行业的健康发展。
4.3 加强行业生态协作
面对不断创新和增多的产品,加强冷板式液冷盲插快接头的行业协作,是解决互配性难题、推动技术进步和应对市场需求的必经之路。当前专利保护带来的技术壁垒成为影响盲插快接头互配的原因之一,可建立专利共享机制,鼓励厂商在特定领域开放部分专利,从而实现技术共享。促进厂商、用户和研究机构之间的技术交流与合作,能够在解决技术难题的同时构建更加开放和兼容的液冷生态,推动整个行业向绿色化、智能化和高效化方向迈进。
5 结束语
本文以盲插快接头为研究对象,分析了盲插快接头在密封性、耐久性、浮动能力和流通能力方面的特征,指出其契合数据中心未来发展趋势但当前存在标准化规范不足的问题,并分析其由于产品设计、专利保护、责任划分和兼容性的差异导致的不同厂商产品互配难题,最终提出了推进标准化研究、开展第三方验证评估和加强行业生态协作3方面的建议。
Research on key problems of decoupling of cold plate liquid cooling quick disconnect blind-mate
LIU Xinning, XIE Lina, SHAO Jianfeng
(Cloud Computing & Big Data Research Institute, China Academy of Information and Communications Technology, Beijing 100191, China)
Abstract:The rapid development of information technology has made the demand for efficient heat dissipation in data centers more and more urgent, and liquid cooling technology has gradually become a solution to the problem. And the cold plate liquid cooling technology has become the mainstream liquid cooling method due to its advantages of high reliability, easy maintenance and low transformation cost. Blind-mate quick disconnect is an important component in cold plate liquid cooling system, which has significant advantages in operation efficiency, reliability and safety. It is one of the core components to ensure the efficient operation of liquid cooling system. This paper analyzes the importance and key features of the blind-mate quick disconnect in cold plate liquid cooling, points out the current decoupling dilemma of the blind-mate quick disconnect.Further, this paper puts forward the development paths and suggestions of the blind-mate quick disconnect in cold plate liquid cooling system.
Keywords: liquid cooling cold plate; quick disconnect; blind-mate; fluid connectors
本文刊于《信息通信技术与政策》2025年 第2期
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“ 信息通信技术前沿的风向标,信息社会政策探究的思想库 ”,聚焦信息通信领域技术趋势、公共政策、 国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
期刊荣誉与收录情况
AMI(2022版)A刊扩展期刊
RCCSE中国核心学术期刊
入选中国科协信息通信领域高质量科技期刊分级目录
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊官方网站(http://ictp.caict.ac.cn)已正式投入运行,欢迎投稿!
推荐阅读

