数据中心冷却系统产业链剖析（二）：热管理系统演进与气流优化策略解析- 大数跨境

Lemon (跨境电商)

2025-03-28

导读：【编者按】英伟达120kW液冷机柜的发布掀起了数据中心冷却技术革命，超高密度计算迈入新阶段。

【编者按】

英伟达120kW液冷机柜的发布掀起了数据中心冷却技术革命，超高密度计算迈入新阶段。目前，液冷需求被严重低估，传统风冷面临能效瓶颈。随着AI算力需求的激增，冷却系统的供应链正在大洗牌。微软、AWS加速布局混合冷却方案，Meta甚至放弃旧架构转向液冷基建。未来，液冷与浸没式技术之争、能效与成本平衡将重塑行业格局，各国政府争相推进高密度部署项目，争做AI时代的全球风向标。本文编译自SemiAnalysis，从技术与供应链的角度仔细解析了数据中心冷却系统的发展方向，欢迎感兴趣的朋友关注和分享。

相关阅读

数据中心冷却系统产业链剖析（一）：能效革命与供应链的重构

【内容目录】

• The Upcoming Datacenter Cooling Market

• Datacenter Cooling Basics

• Cooling Systems and Energy Efficiency

• Air-Cooled Datacenter Architecture

• Server Thermal Management and Airflow

• Anatomy of an Energy-Inefficient Cooling System

• Indoor Cooling Unit

• Air-Cooled and Water-Cooled Chillers

• Water Usage, Air Cooled Chillers and Dry Coolers

• A Look at Hyperscaler Designs and Their Ultra-Low-PUE Systems

• Microsoft Datacenters and Cooling Systems

• Meta’s “H”: Efficiency Over Time-to-market

• Google Datacenters – Energy for Water Tradeoff

• AI Datacenters, the Rise of Liquid Cooling, and GenAI System Roadmap

• Liquid Cooling Primer

• The Future of Datacenter Cooling Systems

• Dedicated Cooling Systems

• Hyperscaler Designs and Roadmap – The End of CDUs?

• Equipment Supplier Landscape

• Is DLC a Temporary Solution to be Replaced by Immersion?

• Oracle & Bytedance Market Rumblings at PTC 2025

下面，请让我们深入剖析每个冷却回路中的独立组件。

服务器热管理与气流

热传导始于数据中心机房，IT设备耗电直接产生热能——驱动IT设备的每千瓦电力约产生等量热能。芯片制造商通过热设计功耗（TDP）界定芯片或系统的最大发热量，为热工程师设计冷却方案提供依据。过去5-10年间，芯片TDP持续攀升。随着AI加速器的普及，这一趋势愈发陡峭，1500W芯片将于明年量产。

从芯片层级来看，在风冷服务器中，导热界面材料（TIM）覆盖于芯片裸片上，将热量从芯片封装传导至均热板或散热器。

风冷服务器中的导热界面材料（TIM）位于芯片裸片顶部，将热量传导至均热板或散热器。散热器通过扩大表面积降低热流密度（单位面积热量），从而提升冷却效率。更高的芯片发热量需要更大的散热器，例如配备700W TDP的NVIDIA H100就采用超大散热器。这类大型散热器是Nvidia H100服务器通常占据8个机架单元（RU）的主要原因，而低功耗CPU服务器可容纳于1U或2U规格中。

服务器风扇负责排出内部组件产生的总热量，在典型H100服务器中，GPU和CPU贡献主要热量。必须确保足够的气流量以移除散热器热量——每千瓦热量对应165至170立方英尺/分钟（CFM）气流量是常用经验法则。

服务器风扇可能消耗显著电能，这促使超大规模运营商设计定制服务器而非采购戴尔或超微等厂商的现成方案。拥有超大规模资源的新锐云服务商Nebius近期数据展示了定制服务器设计如何降低能耗。

温度与能耗关系由温差（Delta T）决定——即服务器进风温度（入口温度）与出风温度（出口温度）的差值。Delta T通过以下方式影响能耗：

• 在冷却系统中，更大的温度差意味着所需气流量或泵送功率线性减少

• 尽管所需气流量可能随Delta T线性变化，但实现不同气流量的能耗并非线性关系。根据风扇定律，风扇能耗等于转速的三次方：降低10%风扇转速（即气流量）可减少27%能耗

• 更高芯片利用率被证明更具能效，因为增加的发热量会扩大出口温度相对于入口温度的Delta T

低效冷却系统解构

现在深入探讨典型运行温度及其对冷却系统设计与效率的关键影响。下图展示传统"低效"风冷数据中心运行模式：

• 服务器进风温度22°C——空气进入服务器的温度

• 室内冷却单元盘管中冷冻水温度7°C，吸热后升至13°C——空气处理机组产生6°C温差

• 在多数地区，将冷却水降温至7°C需要消耗大量电力（主要用于冷水机制冷循环）。如此低的冷冻水温度源自办公楼宇或商业HVAC系统。将水冷却至此低温的能源成本远超降低服务器风扇转速带来的节能量

过去十年间，数据中心运营商逐渐采用更高进风温度（远高于22°C），发现这并未影响IT设备寿命。美国暖通空调学会（ASHRAE）的下表显示，其建议服务器干球温度（即空气温度）维持在18°C至27°C。然而允许超过30°C，某些情况下空气温度甚至可设定高达45°C——尽管"A4"级服务器更多用于军事类应用。