国际能源署(IEA)最新的测算结果表明,2024 年全球数据中心的耗电量大约为 415 太瓦时,大约占全球用电量的 1.5%。预计到 2030 年,将会翻倍到大约 945 太瓦时,这相当于当下日本一整年的用电量。
众多研究表明,在增量部分当中人工智能是最为主要的推动力量,特别是大型模型的训练以及推理这一个方面。
2023 年美国数据中心的用电量占据全国总量的大约 4.4%。到 2028 年有可能上涨到 6.7% 到 12%,增长的幅度几乎达到三倍左右。这也就是说电力系统进入到 “电动车 + 光伏 + AI 数据中心” 三重拉升的阶段。AI 不再是配角,成为新的主角之一。
(补充知识点:太瓦时TWh=1000000KWh=10亿度电)
(图表 1:新旧“吞金兽”对决 (AI vs. BTC) 由Gemini生成)
1. Google 和 Microsoft:一个公司相当于一个中等国家的用电量
公开的大多数据仅仅给出总用电量,没有单独进行 “AI” 方面的拆分,但是趋势是很明显的。
经过研究统计,Google 和 Microsoft 在 2023 年的用电量加起来大约是 24 太瓦时,比全球 100 多个国家一年的用电量还要多。
Google 透露,其在 2023 年的数据中心用电量大约是 24 太瓦时,比 2021 年增加了大约三分之一,主要是由于云以及 AI 方面的需求。
Microsoft 的环境报告显示,公司整体的用电量从 2020 年到 2023 年翻倍到大约 23.6 太瓦时,其中有不少是来自它的 400 多个数据中心。云加 AI 的巨头,本身就属于用电大国级别的存在。
2. Meta,为了给 AI 进行扩容,电表转动得比较快。
Meta 披露,其数据中心在 2023 年的用电量达到了 14.98 太瓦时,同比增长了 34%,这是因为大规模的 AI 训练以及推理集群上线了。为了让这些算力有充足的电力供应,Meta 一方面大量签署风电、光伏的 PPA,现在和 Invenergy 可再生能源合作的规模已经达到了 1800 兆瓦;另一方面押注地热,和 XGS 等公司签署项目,计划到 2030 年给数据中心额外引入 150 兆瓦级别的地热电力。
3. ChatGPT 等大模型,一次对话的背后会用到多少电?
对于大模型具体的度电账目,虽然存在争议,但是能够给出大概的量级概念。早期估算一次 ChatGPT 也就是大型 GPT - 4 级模型的请求大概消耗 2.9 到 3 瓦时的电力,大概是一次普通谷歌搜索的 10 倍。更近一些针对 GPT - 4o 的研究给出了新的估计是 0.3 瓦时每次请求,这表明伴随模型和系统的优化,每次调用的能耗在下降。按照一些研究假设的访问量,ChatGPT 一年总共消耗的电能接近 1000 吉瓦时,接近一个小国一年的用电量。
这些数字所表达的意思并非是 “精确到小数点”,而是让我们了解到:大模型从实验室里的 “玩具”,转变成为能够对国家电力结构产生影响的 “重度负载”。
(图表 2:一次“搜索”的代价,由Gemini生成)
三、算力的真实瓶颈所在:并非是 GPU 的数量,而是 “电、冷却、电网”
当提及 “算力短缺” 的时候,很多人会想到 H100 不够、集群需要排队。但是对于云厂商而言,真正受到限制的通常是:我是否拥有足够的电,使得几万张 GPU 能够保持亮着并且稳定运行?可以分为几个关键的制约因素:
1、功率密度:GPU 机房消耗的不是电,而是 “兆瓦”。
一台配备满高端 GPU 的机柜,功率能够轻松达到几十千瓦。一个专门训练大模型的 AI 机房,单个园区的负载通常是 50 到 100MW,如同中小城市的即时用电负荷。这便意味着:算力集群的建设,就是给电网引入一个 “超级工厂级” 的新用户。
2、电网以及变电能力方面:并非是想接入就能够接入。
美国能源部相关报告指出,数据中心已经消耗了美国大约 4% 以上的电力,到 2028 年或许会接近 10%,这给区域电网的负荷以及扩容规划带来了很大的压力。在实际情况中,不少地方的数据中心项目就因为变电站容量不足、输电线路需要排队而被推迟了 —— 并非是云厂商不想进行建设,而是电网暂时没有办法带动。于是便出现了一些新的情况:在美国、澳洲等地区,有的地方专门对 AI 数据中心表示欢迎,将天然气电站和数据中心放置在一起,迅速推进项目,去争夺 “AI 电力红利”;与此同时环保方面和地方居民就产生了担忧:给 AI 延长燃煤电厂的使用寿命、增加气电厂,会不会使得当地的脱碳进程往后拖延?
3. 冷却以及 PUE:每 1W 的算力,有可能得额外多花费 0.1–0.3W 来进行打水降温。
数据中心有一个核心指标叫做 PUE(Power Usage Effectiveness)(电能使用效率),PUE 等于总用电量除以 IT 设备用电量。理想的状态是 PUE 接近 1.0,那就代表着几乎所有的电都被服务器所使用了。Google 称其成熟的数据中心综合 PUE 已经达到了大约 1.09,这在行业当中是比较领先的水平。但是大多数新建的 AI 负载比较大的数据中心,在短时间内很难达到这个水平,特别是在高温地区。
冷却的方式包含传统的风冷,还有液冷以及浸没式冷却。从本质上来说,都是在做同一件事情:把计算出来的热量迅速弄走,不要让 GPU 和内存热到自燃的程度。要是冷却的情况不好,GPU 就必须 “降低频率来保全自身”,算力就会直接下降。所以在人工智能时代,冷却技术本身变成了算力的硬性约束。
4、“社会许可”:从环保相关话题转变成为商业方面的变量。
微软的 CEO 纳德拉最近公开说过这样一句话:“人工智能需要获得社会许可,才能够消耗如此多的能源”。换一种说法就是:要是人工智能最终被公众认为 “高耗电却没有什么用处”,那么就是政治方面的风险;只有人工智能能够切实地提高生产效率、推动经济的增长,社会才会愿意让它继续 “消耗电力”。
(图表 3:摩尔定律的反面——显卡功耗进化史, 由Gemini生成)
我们可以运用一个简化版本的公式来理解大模型训练过程中的能耗情况:
总能耗大约等于所需算力(FLOPs)÷硬件能效(FLOPs/W)×训练时间× PUE。
FLOPs(Floating-point Operations Per Second,每秒浮点运算次数)
存在三个能够 “做出事情” 的变量:算法、硬件、系统调度。
1. 首先来讲述算法。在达到同样效果的情况下,可不可以少进行一些计算?
其一为更优的模型结构。从早期的全连接网络,到卷积网络,再到 Transformer,其本质都是在追求 “单位算力具备更高的表达能力”。当下又在探寻 MoE(专家混合)、稀疏注意力等方法,将不必要的计算给 “关闭”。
其二是蒸馏与小模型。大模型去 “学习世界”,小模型在边缘设备上开展推理。同样在服务体验相同的情况下,使用小模型能够节省不少的能源消耗。
其三关于检索增强(RAG)来说:不是将所有的知识都放置在参数里面,而是在向量数据库当中进行检索。这相当于是把部分 “模型规模” 替换成 “存储加上检索”,从整体来看能够更加节能。简单地说:算法效率每提升一点,就好像给电网 “减轻负担”。
从中央处理器(CPU)到图形处理器(GPU),再到各种各样的人工智能专用芯片(TPU、ASIC),技术路线的核心指标仅仅是一个:每一瓦特能够运行多少的算力(FLOPs/W)?新一代的高端图形处理器和上一代相比,单位功耗下的算力能够提升 2 到 4 倍;这也就意味着:要是算法方面的需求保持不变,仅仅更换硬件也能够明显地降低耗电量,减少每一次训练时的 “用电费用”。
即便模型和硬件都保持不变,系统层面也有许多事情可以去做。例如动态批量调度,将请求进行 “拼车” 处理,尽可能让 GPU 的利用率达到满值。还有缓存(KV Cache)、多级存储等,能够减少重复的计算。智能路由把任务调度到当前电价相对更为便宜、可再生能源更为充足的数据中心。这些细节累加起来,能够明显地影响一个 AI 平台的整体能效。
数据中心自身并不会排放碳,碳排放来源于用电背后的能源结构。IEA 预测,到 2030 年,为数据中心供电的全球发电量将会从 2024 年的约 460TWh 增长到 1000 多 TWh,到 2035 年将会达到 1300TWh。新增电力中大约有一半由可再生能源提供,剩下的部分还来自天然气和煤炭,核电的占比在逐渐提升。在美国等地区,目前还有半数以上的数据中心用电来源于化石燃料。这也就意味着要是可再生能源的建设跟不上 AI 的扩张步伐,整体的碳排放还是会出现上升的情况。所以 “AI 是不是属于高碳行业”,就取决于它所绑定的是燃煤电,还是风电、光伏、核电、地热。
高密度 GPU 机房常常需要大量的冷却水,在水资源比较紧张的地方会遇到 “AI 与农业 / 居民” 用水方面的冲突。澳洲等地的研究指出,数据中心用电在部分州有可能达到 10% 以上的电力占比,还会推高电价,对当地的居民和工业形成挤压。
为什么越来越多的数据中心项目在立项的时候,不只是关注 PUE,还需要留意 WUE(用水效率),甚至整体区域环境的承载能力。
3. 区位和产业政策:电从什么地方获取?算力放置在什么地方?
-
挪威、冰岛很多有着水电加上冷凉气候的地方,着重强调 “天然低碳并且冷却成本较低”;
-
美国有些州在天然气产区大规模建设 “气电加上数据中心”;
-
接近负荷中心和网络骨干:AI 服务里对延迟比较敏感的业务(像广告、电商、金融这类),需要接近大城市和骨干网络节点;
-
政策推动:一些国家或者地区在制定专门的数据中心准入标准,要求新建 AI 机房得配备一定比例的可再生能源以及冷却效率。
产业方面,“算力选址” 成为了需要综合考虑的事情,电价、能源结构、电网容量、政策风险这些都得被纳入考量
六、针对创业者以及投资者,从其自身角度去解析有关 “算力×电力” 长期机会的更为实际的问题
1. 若你正在开展人工智能产品研发工作,应当具备 “全栈能耗认知”,至少需要明晰三件事情。
-
我目前主要的成本,是模型训练时的电费,还是推理时的电费。
-
若模型规模翻倍,我的电力成本是呈线性增长,还是能够依靠算法或硬件优化予以抵消掉。
-
是否可以采用架构设计比如 RAG、小模型、多级缓存相关的方式来降低单位请求的能耗,这与你的定价、毛利率以及资本开支的节奏直接相关
2. 若你正在寻觅基础设施的机会,“算力与电力” 是一个逻辑链,未来几年需留意若干方向。
-
存在 AI 专用数据中心 REIT 或者资产化的机会,由于电力接入能力以及 PUE 表现优异本身属于稀缺资产。
-
能够为算力企业提供长期稳定且价格可预测的低碳电力的,是具有议价权的主体,此即为清洁能源加 AI PPA 组合出现的情形。
-
新型冷却技术比如液冷、浸没式冷却相关的,直接便提高了 “算力功率密度”,使得同一块土地同一条变电线能够承载更多的 GPU。
-
能效优化软件以及电力调度系统从 “更为智能用电” 之处探寻收益,将节省下来的电费转化为能够进行量化的商业价值。
3. 从宏观到微观来看,人工智能是新的 “用电基础设施”,其上限不只是由算法和芯片所决定,还由我们能够准备多少 “干净、稳定、能够负担得起” 的电力来确定,而谁在这条 “算力乘电力” 的供应链上占据关键节点,谁就真正掌握了人工智能时代的 “底层筹码”
AI 的竞争,表面上是算法和芯片的竞争,底层逻辑却是能源的竞争。
从蒸汽机时代的煤炭,到电气时代的石油,再到 AI 时代的电力,人类文明的每一次跃升,都伴随着对能量驾驭能力的升级。
对于我们在 Web3 和科技行业的观察者来说,下一个风口或许不仅仅是某一个 AI Token,而是那些能够为 AI 提供廉价、稳定、清洁能源的基础设施。
毕竟,拔掉电源,再强的 AI 也不过是一堆虚拟的代码。
你认为清洁核能会是 AI 发展的最终救星吗?欢迎在评论区留言讨论!