英伟达120kW液冷机柜的发布掀起了数据中心冷却技术革命,超高密度计算迈入新阶段。目前,液冷需求被严重低估,传统风冷面临能效瓶颈。随着AI算力需求的激增,冷却系统的供应链正在大洗牌。微软、AWS加速布局混合冷却方案,Meta甚至放弃旧架构转向液冷基建。未来,液冷与浸没式技术之争、能效与成本平衡将重塑行业格局,各国政府争相推进高密度部署项目,争做AI时代的全球风向标。本文编译自SemiAnalysis,从技术与供应链的角度仔细解析了数据中心冷却系统的发展方向,欢迎感兴趣的朋友关注和分享。
• The Upcoming Datacenter Cooling Market
• Datacenter Cooling Basics
• Cooling Systems and Energy Efficiency
• Air-Cooled Datacenter Architecture
• Server Thermal Management and Airflow
• Anatomy of an Energy-Inefficient Cooling System
• Air-Cooled and Water-Cooled Chillers
• Water Usage, Air Cooled Chillers and Dry Coolers
• A Look at Hyperscaler Designs and Their Ultra-Low-PUE Systems
• Microsoft Datacenters and Cooling Systems
• Meta’s “H”: Efficiency Over Time-to-market
• Google Datacenters – Energy for Water Tradeoff
• AI Datacenters, the Rise of Liquid Cooling, and GenAI System Roadmap
• The Future of Datacenter Cooling Systems
• Dedicated Cooling Systems
• Hyperscaler Designs and Roadmap – The End of CDUs?
• Equipment Supplier Landscape
• Is DLC a Temporary Solution to be Replaced by Immersion?
• Oracle & Bytedance Market Rumblings at PTC 2025
下面,请让我们深入剖析每个冷却回路中的独立组件。
热传导始于数据中心机房,IT设备耗电直接产生热能——驱动IT设备的每千瓦电力约产生等量热能。芯片制造商通过热设计功耗(TDP)界定芯片或系统的最大发热量,为热工程师设计冷却方案提供依据。过去5-10年间,芯片TDP持续攀升。随着AI加速器的普及,这一趋势愈发陡峭,1500W芯片将于明年量产。
从芯片层级来看,在风冷服务器中,导热界面材料(TIM)覆盖于芯片裸片上,将热量从芯片封装传导至均热板或散热器。
风冷服务器中的导热界面材料(TIM)位于芯片裸片顶部,将热量传导至均热板或散热器。散热器通过扩大表面积降低热流密度(单位面积热量),从而提升冷却效率。更高的芯片发热量需要更大的散热器,例如配备700W TDP的NVIDIA H100就采用超大散热器。这类大型散热器是Nvidia H100服务器通常占据8个机架单元(RU)的主要原因,而低功耗CPU服务器可容纳于1U或2U规格中。
服务器风扇负责排出内部组件产生的总热量,在典型H100服务器中,GPU和CPU贡献主要热量。必须确保足够的气流量以移除散热器热量——每千瓦热量对应165至170立方英尺/分钟(CFM)气流量是常用经验法则。
服务器风扇可能消耗显著电能,这促使超大规模运营商设计定制服务器而非采购戴尔或超微等厂商的现成方案。拥有超大规模资源的新锐云服务商Nebius近期数据展示了定制服务器设计如何降低能耗。
温度与能耗关系由温差(Delta T)决定——即服务器进风温度(入口温度)与出风温度(出口温度)的差值。Delta T通过以下方式影响能耗:
• 在冷却系统中,更大的温度差意味着所需气流量或泵送功率线性减少
• 尽管所需气流量可能随Delta T线性变化,但实现不同气流量的能耗并非线性关系。根据风扇定律,风扇能耗等于转速的三次方:降低10%风扇转速(即气流量)可减少27%能耗
• 更高芯片利用率被证明更具能效,因为增加的发热量会扩大出口温度相对于入口温度的Delta T
现在深入探讨典型运行温度及其对冷却系统设计与效率的关键影响。下图展示传统"低效"风冷数据中心运行模式:
• 服务器进风温度22°C——空气进入服务器的温度
• 室内冷却单元盘管中冷冻水温度7°C,吸热后升至13°C——空气处理机组产生6°C温差
• 在多数地区,将冷却水降温至7°C需要消耗大量电力(主要用于冷水机制冷循环)。如此低的冷冻水温度源自办公楼宇或商业HVAC系统。将水冷却至此低温的能源成本远超降低服务器风扇转速带来的节能量
过去十年间,数据中心运营商逐渐采用更高进风温度(远高于22°C),发现这并未影响IT设备寿命。美国暖通空调学会(ASHRAE)的下表显示,其建议服务器干球温度(即空气温度)维持在18°C至27°C。然而允许超过30°C,某些情况下空气温度甚至可设定高达45°C——尽管"A4"级服务器更多用于军事类应用。
分析超微图表引出一个关键问题:为何进入机房空气处理机组的7°C冷冻水会产生22°C的服务器进风温度?这种显著温差通常源于低效气流管理。Upsite Technologies提出"四温差"概念,将该温差分解为机房不同区域的离散温差:
服务器进风与回风温差
1. 机房空气紊流/混合温差:机房内热回风与冷送风混合导致的负温差
2. 机房空气处理机组温差:冷却盘管入口温度与吸热后冷回风温度的差值
3. 二次空气混合温差:冷回风与热废气混合产生的正温差。通过高效气流管理最小化该温差可确保进风冷量维持温度。需注意图中显示的是架空地板,但由于冷却容量(气流量)限制和成本因素,该设计在现代数据中心并不流行
为减少"空气混合",我们使用遏制系统隔离气流。下图展示热通道遏制方案,但冷通道遏制同样存在且理论效率相当。热通道遏制需要特定天花板设计,不适合改造项目;而冷通道遏制会增加维护难度(因机房温度过高),导致部分运营商部署效率低下。现代新建数据中心普遍采用热通道遏制。
需注意气流管理具有复杂性,可通过计算流体力学(CFD)分析速度、压力、粘度、密度、温度等物理参数进行高度优化。超大规模运营商等先进运营方重度依赖CFD降低气流量需求。这些优化可能产生显著效果——根据风扇定律,气流量减少将引发能耗的立方级下降。
*原文媒体:SemiAnalysis;半导体产业研究
*原文作者:
Dylan Patel; Jeremie Eliahou Ontiveros; Daniel Nishball; Reyk Knuhtsen
*原文链接:
https://semianalysis.com/2025/02/13/datacenter-anatomy-part-2-cooling-systems/
-END-
未经授权,禁止转载。公众号:数据中心基础设施运营管理
【版权声明】
凡本公众平台注明来源或转自的文章,版权归原作者及原出处所有,仅供大家学习参考之用,若来源标注错误或侵犯到您的权利,烦请告知,我们将立即删除。
【免责声明】
本公众平台对转载、分享的内容、陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完善性提供任何明示或暗示的保证,仅供读者参考。