6月10日下午,由深圳市为民可靠性系统工程研究院与DT新材料、DT未来产业主办的“2026未来产业新材料博览会——热管理液冷及先进半导体可靠性技术应用大会”圆满开展。
在本次活动上,为民可靠性研究院院长、北航康锐教授围绕算力中心液冷技术,结合确信可靠性理论,从新技术、新材料、新系统三大维度展开深度分享,为与会从业者剖析了当前液冷发展现状、核心痛点、落地方法与未来方向。
当下AI算力飞速增长,单芯片功耗逐步突破千瓦级别,单机柜功耗持续走高,传统风冷已然触碰物理极限,不仅PUE偏高、功率密度受限,也难以适配下一代旗舰AI芯片的散热需求,液冷由此成为算力中心散热的主流选择,而这场技术更迭绝非单纯散热方式替换,更是设备可靠性运行逻辑的全面转变。
康锐教授首先对比了传统风冷、冷板式液冷与浸没式液冷的核心指标,以及三大主流液冷路线的适配场景与可靠性短板。
在新技术层面,以温度裕量方程为核心,阐释了液冷的可靠性底层逻辑:液体导热能力远超空气,能够降低整体热阻、提升芯片温度裕量,减少热应力循环,进而放缓设备性能退化速度、延长使用寿命,阿里云实测也证实浸没液冷服务器失效率较风冷下降五成以上。
同时他提出,行业不能只关注“能不能散热”,更要以确信可靠性理论为标尺,保障冷却液温度、流量、压降等关键参数在时空维度内稳定可控,划定合理的参数波动范围,让散热效果具备可重复性与确定性。
针对新材料环节,康锐教授聚焦冷却介质与热界面材料两大核心品类,梳理了不同材料的优劣势与长期退化风险。
目前主流冷却液分为氟化液、水基液、油基液及各类新型纳米流体,氟化液绝缘性好但成本高昂且存在环保与供应链隐患,水基液经济环保却易引发电化学腐蚀、滋生微生物,油基液安全性强但流动性不足;而热界面材料分为聚合物基、金属基、相变材料三类,分别对应不同功率场景,普遍存在泵出效应、老化干裂、腐蚀泄漏等退化问题。
对此,他建议行业依托退化方程搭建材料劣化模型,结合加速退化试验,实时监测热阻、酸碱度、离子浓度等数据,精准预判材料失效节点,实现全生命周期材料可靠性管控。
在新系统架构设计上,康锐教授将液冷系统拆解为冷却分配单元、管路、接头、冷板、芯片五层可靠性链条,指出系统失效多源于泄漏、堵塞、气蚀腐蚀三类问题,且各组件失效会相互影响,极易引发系统性热失控。他结合串联、并联可靠性模型与竞争失效模型,讲解了系统可靠性的计算与评估方式,并倡导搭建“传感器+数字孪生+AI”的智能运维体系,通过流量、压力、温度、漏液传感器实时采集数据,依托数字孪生完成设备虚拟映射,借助人工智能预判故障,推动运维从传统被动维修转向预测性维护,阿里云全浸没液冷集群长期稳定运行的案例,也印证了这套模式的可行性。
最后,康锐教授在总结时提出“算力的边界在热,热的边界在材料,而可靠的边界在认知”这一核心观点,他的分享为整个产业带来诸多启发:
其一,行业要跳出“只重散热效率”的固有思维,树立“散热与可靠性并重”的理念,将确信可靠性理论贯穿液冷产品设计、选材、部署、运维全流程;
其二,企业需结合自身算力密度、预算、运维能力合理选择液冷路线,中高密场景优先选用成熟的冷板式液冷,超高密AI训练场景布局浸没式液冷,避免盲目跟风;
其三,产业链上下游要协同攻坚材料短板,持续优化冷却液、热界面材料性能,平衡成本、环保与长期稳定性;
其四,加快完善液冷可靠性相关标准与验证规范,推动技术从“能用”向“可信”升级。
对于算力中心从业者而言,液冷已是高密度算力时代的必然选择,唯有吃透可靠性底层逻辑,把控材料、技术、系统每一个环节的风险,才能让液冷技术真正支撑算力产业长效、稳定、绿色发展。
【美好的可靠性】7月19日,为民可靠茶话会(杭州站)确信可靠性专题
-END-
信息来源:深圳市为民可靠性系统工程研究院
编辑整理:子木
如需转载,请注明以上内容

