AI数据中心全面液冷时代来了,这波确定性你必须看懂
价值前沿VF
6月21日,英伟达官方开发者博客发布专题文章,首次完整公开Vera Rubin平台的100%全液冷方案。注意,不是"液冷+风冷"混合,是100%全液冷——系统里每一颗芯片、每一个网络组件,全部靠液冷散热,风扇彻底干掉了。这跟Blackwell/GB200时代的混合架构有本质区别,老黄直接把这事定义为"数据中心历史上最重要的能效突破之一"。而且这个方案已经同步写入英伟达DSX AI工厂参考设计,意味着所有为Rubin建设系统的云服务商和数据中心运营商,必须完成向液冷技术的转型。不是建议你用,是强制你用。
什么概念?液冷从"可选项"变成了"必选项"。这就是产业链的强制转型窗口。
据英伟达6月初公开新闻稿,Vera Rubin平台将于2026年秋季正式启动量产并开始出货。
传统液冷供液温度多设定在30-35°C,要维持这么低的温度,背后是大量的机械制冷设备和水资源消耗。英伟达这次直接把进液温度拉到45°C,回液温度约55°C,采用冷板+水混合丙二醇的冷却液方案。
第一,不需要机械冷水机组了。55°C的回液温度与多数地区室外空气之间仍可形成足够温差,直接用干式冷却器或自然冷却就能向环境排热,大幅降低能耗。第二,用水需求几乎归零,数据中心最头疼的水资源瓶颈直接解决。第三,系统组件冷却方案全面转向液冷设计——英伟达热工程团队重新设计了冷却回路,通过单个入口和出口即可将冷却液输送至电路板上的多颗高功率芯片,实现更简洁的托盘级冷却架构。原先需占用六个机架单元的系统,现已可集成于两个机架单元内——算力密度更高、空间占用更少、运行噪音更低。前面板更加简洁密封,有利于提升机柜集成度和系统可靠性。
但这里有个关键矛盾:供液温度提高了,意味着冷却液与芯片之间的有效温差缩小。芯片功耗及热流密度持续提升,允许结温基本不变,那怎么办?必须进一步降低芯片至冷却液的整体热阻。这就对液冷产业链每一个环节都提出了更高要求——冷板要微通道化(通过缩小流道尺度、扩大换热面积来降低热阻)、CDU要更高换热功率和更低逼近温差、快接头要更耐高温更长寿命。
说白了,不是随便谁都能做的,技术门槛实打实地抬高了。
今年4月谷歌Cloud Next 2026大会,第七代TPU Ironwood正式向云客户开放使用,每颗芯片FP8算力4614 TFLOPS、配备192GB HBM3e。重点是:Ironwood采用全液冷设计。每个TPU芯片及VRM均覆盖定制微通道冷板,冷板延伸至整个供电区实现并行水路同步冷却,因为VRM的热密度甚至高于TPU本身。架构上采用串行冷却设计,冷却液从CDU流出后串联通过多个TPU芯片。同期发布的第八代TPU采用第四代液冷技术,同样是100%液冷设计。
谷歌V7、V8逐步出货,液冷链Q3或迎来初步业绩兑现,跟英伟达Rubin秋季量产形成时间共振。两条线同时起来,这个节奏你品品。
更重要的是,ASIC外销逻辑正在打开。谷歌4月底宣布向外部客户销售TPU,近期还在效仿英伟达路径,通过财务担保等方式支持Lake Mariner、River Bend等数据中心项目获得低成本债务融资,同时通过销售芯片回流部分资金。亚马逊也表示正在与潜在客户展开谈判,计划向其他企业的数据中心销售自研AI芯片,成为除谷歌外的第二家对外销售ASIC的科技巨头。
谷歌TPU、亚马逊Trainium等ASIC芯片凭借定制化场景下的能效及性价比优势,市场份额有望逐步提升。ASIC出货量持续增长,将为国内液冷产业链公司带来增量配套机会。
这不是一家的逻辑,是整个AI算力产业的共识在收敛。
单芯片功耗跨越式跃升后风冷已触及物理极限,散热不到位GPU/TPU自动降频,散热不稳定训练任务中断损失巨大,散热不可靠万卡集群无法线性扩展。随着芯片性能提升、互联带宽提升、光模块速率提升,散热需求成为AI算力产业链上最关键的价值环节之一。
芯片越强→功耗越高→液冷越不可替代。这是一个正循环:液冷价值量随芯片代际跃升持续通胀。
Rubin相比GB200/GB300,单柜液冷价值量进一步提升。从Blackwell到Rubin,液冷渗透率从部分到100%,价值量从配角到核心。这就是产业趋势给你的确定性。
GMI的数据:2026年全球AIDC服务器液冷市场空间60亿美元,2035年271亿美元,复合增速约18%。而且这还是保守口径,因为单柜功率从传统30-40kW直接跃升到500-650kW,地板承重、配电系统、冷却液分配系统全部要升级,整个基础设施都要重来一遍。
冷板环节:45°C高温供液推动产品向微通道化和精细流道设计升级。微通道冷板通过缩小流道尺度、扩大液体与冷板换热面积,降低冷板热阻,更适合高热流密度和较高进液温度场景,技术领先厂商护城河加深。
CDU环节:单机价值量与系统集成门槛双升。45°C供液提高了机房侧自然冷却能力,但也要求CDU在更高进水温度下稳定保障芯片散热。随着机柜功率往500kW以上走,CDU需向更高换热功率、更精准流量控制、更低逼近温差及更强冗余监测升级。
快接头、管路、歧管等液体输配系统:需求扩容与产品升级并行。液冷覆盖范围由CPU/GPU扩大至整机全部组件(含VRM等供电模组),液体输配系统需求直接扩容。45°C进液长期运行对系统整体的低泄漏、低压降、耐腐蚀、材料兼容性以及快接头插拔寿命和长期连接可靠性都提出更高要求。
服务器OEM厂商:竞争格局重塑,具备液冷集成能力的厂商拿到更多订单倾斜。
相关标的方面:液冷优质企业申菱环境、领益智造、银轮股份、远东股份、博杰股份、同飞股份、高澜股份、科创新源等;电子泵方向飞龙股份、大元泵业;全球液冷全产业链全自研龙头英维克;海外供应链台达电、奇鋐科技、双鸿、健策精密等。
这里最确定的还是上游核心组件——冷板、CDU、快接头,有技术壁垒、有量产能力、跟英伟达和OEM深度绑定的供应商,确定性最强。
风险还是要提:Rubin量产进度不及预期、液冷技术良率爬坡慢于预期、下游云厂商资本开支收缩、中美贸易摩擦、AI发展不及预期、行业竞争加剧。但从产业链交叉印证来看,英伟达强制推、谷歌全面跟、ASIC外销放量,三条线共振,方向上的确定性已经很高了。
字字斟酌,句句用心,请帮忙点点“❤️”,温柔且珍贵!!!