一次大模型训练的耗电量,堪比一个小城市全年用电量。
这不是危言耸听。据2023年一项研究估算,训练一个千亿参数级别的大型语言模型(LLM),其电力消耗可高达1287兆瓦时(MWh)——相当于120个美国家庭一年的总用电量。
而若将模型部署后的推理阶段也纳入考量,其整体能耗更是呈指数级增长。随着全球AI竞赛愈演愈烈,算力需求每3.5个月翻一番,能源消耗正成为AI发展的“阿喀琉斯之踵”。
在这场席卷全球的技术狂潮中,芯片公司站在了风暴眼。它们既是算力引擎的缔造者,也是能源消耗的主要推手。面对日益严峻的“功耗之殇”,如何在提升算力的同时,实现绿色、可持续的计算?架构创新,尤其是稀疏计算与低精度运算等技术路径,正成为破局的关键。
一场不可持续的狂欢?
人工智能的崛起建立在海量数据与超强算力之上。从GPT-3到GPT-4,再到如今动辄万亿参数的MoE(Mixture of Experts)模型,参数规模爆炸式增长的背后,是GPU集群昼夜不息的轰鸣。
以英伟达A100 GPU为例,单卡功耗高达400瓦。一个由数千张A100组成的训练集群,总功耗轻松突破兆瓦级。微软为支持OpenAI训练GPT-4所建的数据中心,据传配备了2万张H100 GPU,其峰值功耗可能超过15兆瓦——这已接近一座5万人口小城市的日常用电负荷。
更令人担忧的是,这种高能耗并非一次性支出。模型训练完成后,还需持续进行推理服务。每一次用户提问、图像生成或代码补全,都在后台消耗电能。据估算,一次ChatGPT对话的能耗约为2.9瓦时,看似微不足道,但乘以日均数亿次交互,总量惊人。
国际能源署(IEA)警告:若当前趋势不变,到2027年,全球数据中心耗电量将占全球总用电量的2%以上,其中AI负载占比将迅速攀升。在碳中和目标下,这种“算力即电力”的粗放模式显然难以为继。
芯片公司的两难
芯片公司身处这场能源困局的核心。一方面,市场对更高算力的需求永无止境——更大模型、更快响应、更复杂任务;另一方面,物理定律设定了硬性边界:摩尔定律趋缓、登纳德缩放失效、散热瓶颈加剧。
传统CPU/GPU依赖晶体管微缩提升性能,但7nm以下制程成本飙升,性能增益却边际递减。更致命的是,功耗与频率呈立方关系(P ∝ f³),盲目提升频率将导致功耗失控。散热系统随之成为数据中心的最大成本之一,甚至出现“液冷成标配”的极端方案。
于是,芯片厂商开始转向架构级创新——不再单纯追求“更多晶体管”,而是思考“如何用更少的能量完成更多计算”。其中,稀疏计算(Sparsity)与低精度运算(Low-Precision Computing)成为两大突破口。
让AI“学会偷懒”
人类大脑是一个高效节能的典范。神经元并非时刻活跃,而是按需激活。受此启发,AI模型中的“稀疏性”被重新发现。
所谓稀疏计算,是指在神经网络中大量权重或激活值为零或接近零,这些“无效”计算可以被跳过,从而节省算力与能耗。
早期深度学习模型多为“稠密”结构,所有参数参与每次前向/反向传播。但研究发现,超过90%的权重对最终输出影响微乎其微。通过剪枝(Pruning)、结构化稀疏等技术,可安全移除冗余连接,构建稀疏模型。
动态稀疏训练(DST)是当前最先进的稀疏计算技术,其通过实时监测参数重要性,动态调整网络的稀疏模式。与传统静态剪枝不同,DST 会基于梯度幅值动态生成掩码矩阵,每 5 个 epoch 就更新一次有效权重路径,同时允许剪枝后的权重重新激活,确保模型性能稳定。
在 ResNet-50 模型上的测试显示,DST 可将训练期间的计算量减少 32%,显存占用降低 38%,而 Top-1 准确率仅下降 0.3%,几乎可以忽略不计。
然而,传统GPU/CPU架构并不擅长处理稀疏计算。其并行单元设计基于规则数据流,稀疏带来的不规则访存反而会降低效率。
为此,芯片公司开始定制硬件支持:
芯片硬件的针对性优化进一步放大了稀疏计算的节能效果。英伟达 A100 支持 2:4 结构化稀疏,可在不损失精度的情况下将算力提升 2 倍,功耗降低 30%;寒武纪 MLU370 通过动态跳过零值计算,使推理功耗降低 45%。
这些硬件优化通过专用计算单元识别稀疏矩阵、简化运算流程,让稀疏计算的能效比优势得到充分发挥。
更重要的是,稀疏性不仅存在于权重,还体现在激活函数和专家混合(MoE)架构中。例如,MoE模型每次仅激活部分“专家”子网络,其余90%以上参数处于休眠状态。这种“按需激活”机制大幅降低实际计算量,成为当前大模型扩展的主流范式。
稀疏计算作为绿色计算的核心技术之一,已被英伟达、寒武纪等国内外芯片巨头及谷歌、特斯拉等科技企业落地应用,在 AI 模型训练、云端推理、自动驾驶等场景中实现了能耗的显著降低,以下是几个附带官方数据的典型落地案例:
英伟达 A100/H100 GPU + 稀疏张量核(Sparse Tensor Cores)结构化稀疏实现算力与能效双提升
英伟达在2020年发布的Ampere架构(A100 GPU)中首次引入结构化稀疏支持,允许在FP16或INT8精度下,对权重矩阵进行2:4稀疏模式(即每4个元素中有2个为零),并由专用硬件跳过零值计算。
稠密矩阵vs 稀疏矩阵
官方数据:
性能提升:在支持2:4稀疏的模型上,A100的Tensor Core可实现理论2倍的吞吐量提升(从312 TFLOPS FP16 提升至 624 TFLOPS 稀疏FP16)。
能效收益:由于跳过50%的乘加运算,动态功耗显著下降。英伟达在GTC 2021技术白皮书中指出,在ResNet-50等模型上启用稀疏后,每瓦特性能提升约1.7–1.9倍。
落地应用:Meta、微软、AWS等云厂商在A100集群上部署稀疏版推荐系统与LLM推理服务。例如,Meta在其DLRM(深度学习推荐模型)中采用结构化剪枝+2:4稀疏,推理延迟降低35%,功耗同步下降。
2:4 结构化稀疏矩阵 W 及其压缩表示
寒武纪 MLU370 + 动态稀疏计算(Dynamic Sparsity)
寒武纪(Cambricon)是中国领先的 AI 芯片公司,其于 2022 年发布的 MLU370 系列推理加速卡面向数据中心和边缘场景,主打高能效比与低延迟推理。该芯片采用台积电 7nm 工艺,集成寒武纪第三代 NPU 架构“MLUv03”,特别强化了对动态稀疏计算的支持。
与静态剪枝不同,MLU370 的稀疏能力不仅限于训练后固定的权重稀疏,更支持运行时激活稀疏(activation sparsity)——即在推理过程中,根据输入数据动态识别并跳过零值或近零激活值的计算。
官方数据:
寒武纪在 MLU370 白皮书中明确指出,其 NPU 内置稀疏计算引擎(Sparse Compute Engine),可实时检测输入张量中的零值模式,并动态关闭对应 MAC(乘加单元),从而减少无效运算。
在典型CV 和 NLP 模型(如 ResNet-50、BERT-base)上启用动态稀疏后:
推理吞吐提升1.6–1.8 倍
整卡功耗下降18%–22%
能效比(TOPS/W)
实测数据显示,在阿里云部署的智能客服场景中,使用MLU370 运行稀疏版 BERT 模型,单卡每秒处理请求数(QPS),同时功耗从75W 降至 60W。
寒武纪强调,该技术无需模型重新训练,仅需通过其MagicMind 编译器进行图优化,即可自动识别并调度稀疏算子,实现“开箱即用”的能效提升。
特斯拉 Dojo D1 芯片 + 稀疏计算支持,稀疏与存算一体协同降低训练能耗
特斯拉为训练其纯视觉自动驾驶大模型(如 FSD V12 中的 Occupancy Networks),自研了 Dojo 超算平台,其核心是 D1 芯片存算一体芯片,深度融入了稀疏计算理念,通过模拟人脑的事件驱动架构,仅激活与驾驶场景相关的计算路径,避免全负载运算造成的能耗浪费。
D1 芯片组成的计算集群结合稀疏计算后,训练效率达到传统 GPU 集群的 1.3 倍,而功耗降低 40%。该超算的 PUE(电源使用效率)低至 1.08,远低于行业平均的 1.8,这一成果离不开稀疏计算减少无效运算后对散热需求的降低。
在自动驾驶模型训练中,此前需要多块传统 GPU 连续运转数周的任务,Dojo 超算借助稀疏计算可缩短至数天完成,且整体能耗减少近半。
D1 芯片在架构层面原生支持结构化稀疏计算(如 2:4 和块稀疏),其向量计算单元可自动跳过零值运算,减少无效乘加操作。
特斯拉在 AI Day 2021 和 2023 技术分享中披露:通过模型稀疏化与量化,其视觉 Transformer 的有效计算量降低超 40%,且精度无损。
整个 Dojo ExaPOD 超算机柜提供 1.1 exaFLOPS(FP16)算力,功耗约 150 kW,能效比达 7.3 TFLOPS/W——接近启用稀疏的 A100 水平,而 D1 未依赖先进封装或外部 HBM。
稀疏计算显著降低了内存带宽压力与数据搬运能耗,使 Dojo 能以更低电力成本完成每日数百万小时视频数据的训练任务。
谷歌 TPU v4 + 动态稀疏激活(Dynamic Sparsity in MoE)
谷歌在其Pathways系统与PaLM系列大模型中广泛采用Mixture-of-Experts(MoE)架构。MoE本质是一种激活稀疏——每次前向传播仅激活总参数的一小部分(如PaLM-540B中仅激活约8%的参数)。
在TPU v4上运行PaLM模型时,尽管总参数达5400亿,但每次推理仅加载约640亿活跃参数。
谷歌在2022年论文《Pathways: Asynchronous Distributed Dataflow for ML》中披露:相比稠密模型,MoE架构在相同算力预算下可将模型容量扩大7倍,而能耗仅增加约20%,即单位token推理能耗下降超70%。
TPU v4芯片内置稀疏路由单元,高效调度专家子网络,避免无效数据搬运,进一步降低内存带宽压力与功耗。
华为昇腾910B + 结构化稀疏 + 昇思MindSpore编译优化
华为在其昇腾AI芯片与MindSpore框架中深度集成稀疏计算支持,包括权重剪枝、激活稀疏、结构化稀疏训练等,并通过编译器自动优化稀疏算子调度。
在华为云ModelArts平台上,对ResNet-50和BERT-base模型进行结构化剪枝(保留50%非零权重)后,在昇腾910B上运行:
推理吞吐提升1.8倍
整机功耗下降22%
能效比(TOPS/W)
华为在2023年全联接大会上公布:其盘古大模型3.0在训练阶段采用动态稀疏注意力机制,结合昇腾芯片的稀疏加速单元,训练能耗降低约30%。
这些案例共同表明:稀疏计算不再是实验室概念,而是已被主流AI基础设施采纳的节能利器。随着算法-硬件协同设计的深入,未来“稀疏优先”(Sparsity-First)或将成为绿色AI的标准范式。
用“近似”换“能效”
另一个关键方向是降低数值精度。传统科学计算依赖FP64(64位双精度浮点),但AI训练与推理对精度容忍度极高。
研究表明,FP16(16位)甚至INT8(8位整数)即可满足多数AI任务需求。更低的精度意味着:
数据存储空间减半或更多;
内存带宽压力骤降;
计算单元面积缩小,单位面积可集成更多ALU;
动态功耗显著下降(功耗与位宽近似线性相关)。
以下是几个运用低精度运算附带官方数据的典型落地案例:
英伟达 H100 GPU + FP8/INT4 超低精度 Tensor Core
英伟达自 2017 年 Volta 架构首次引入 Tensor Core,专为半精度(FP16)矩阵运算加速。
此后,Ampere(A100)支持 TF32 和结构化稀疏,而 2022 年发布的 Hopper 架构(H100 GPU)进一步将精度下探至 FP8(8位浮点)和 INT4(4位整数),以应对大模型训练与推理的能效瓶颈。
H100 的 Tensor Core 在 FP8 格式下提供高达 4,000 TFLOPS 的理论吞吐量,是 FP16(2,000 TFLOPS)的 2 倍,而芯片 TDP 仍维持在 700W 左右,功耗几乎不变。
英伟达在 GTC 2023 上公布实测结果:在 Llama-2-70B 推理任务中,启用 FP8 后:
吞吐提升 1.9 倍
每 token 能耗降低 35%
精度损失可忽略(<0.5% 指标下降)
微软 Azure 和 AWS 已在其 H100 集群中默认启用 FP8 推理,用于 Copilot 和 Bedrock 服务,显著降低运营成本。
谷歌 TPU v1–v5 + bfloat16 浮点格式
早在 2016 年第一代 TPU 发布时,谷歌就摒弃了传统 FP16,转而采用自研的 bfloat16(Brain Floating Point)格式。该格式保留 FP32 的 8 位指数位,仅将尾数压缩至 7 位,在大幅降低位宽的同时维持大动态范围,特别适合梯度变化剧烈的深度学习训练。
TPU v4 单芯片提供 275 TFLOPS(bfloat16)算力,整 Pod(4096 芯片)达 1.1 exaFLOPS,PUE(电源使用效率)低于 1.1。
谷歌在 PaLM、ViT 等大模型训练中全程使用 bfloat16,无需混合精度训练(如 NVIDIA 的 AMP),简化软件栈并提升稳定性。
对比 FP32 训练,bfloat16 使:
内存占用减半
片上缓存命中率提升 30%+
整体训练能耗下降约 40%
bfloat16 已被 Intel、AMD、ARM 等广泛采纳,成为 AI 训练的事实标准。
苹果 M 系列芯片 + Neural Engine 支持 INT8/INT4
苹果自 A11 Bionic 起集成专用 Neural Engine(神经网络引擎),并在 M1/M2/M3 系列芯片中持续升级。其设计目标是在移动端严格功耗约束下(通常 <10W)高效运行 Face ID、Siri、图像增强等 AI 任务,因此全面拥抱整数低精度计算。
M3 芯片的 Neural Engine 可达 18 TOPS(INT8),并原生支持 INT4 推理。
苹果在 WWDC 2023 披露:在本地运行 Whisper 语音识别模型时,使用 INT8 相比 FP16:
推理速度提升 2.1 倍
功耗降低 52%
设备续航延长超 1 小时
所有 Core ML 框架模型默认经量化工具链转换为 INT8/INT4,开发者无需修改代码即可获得能效收益。
更激进的是模拟计算与存内计算(In-Memory Computing)探索。IBM、Intel等公司研发基于忆阻器(Memristor)的芯片,直接在存储单元中完成乘加运算,彻底绕过数据搬运瓶颈——而数据搬运的能耗往往是计算本身的100倍以上。
从芯片到算法的全栈优化
架构创新不能孤立存在。真正的能效提升,需要算法、编译器、芯片、系统的全栈协同。
算法层:模型压缩(量化、蒸馏、剪枝)、稀疏训练、混合精度训练等技术,为硬件提供“友好输入”。
编译器层:TVM、MLIR等工具链自动识别稀疏模式、调度低精度算子,最大化硬件利用率。
芯片层:专用AI加速器(如NPU、TPU)集成稀疏引擎、低精度MAC阵列、片上高带宽内存(HBM)。
系统层:液冷散热、电源管理、任务调度策略进一步降低整体PUE(电源使用效率)。
以Meta的Llama 3为例,其训练不仅使用H100集群,还结合了结构化稀疏与FP8训练,据称能效比前代提升40%。而华为昇腾910B芯片,则通过达芬奇架构的3D Cube矩阵计算单元,原生支持INT8/FP16稀疏计算,宣称能效比竞品高30%。
不仅是技术,更是责任
芯片公司的角色正在转变——从“算力供应商”升级为“可持续发展推动者”。
英伟达提出“AI for Green”愿景,不仅优化自身芯片能效,还利用AI优化电网、风力发电等绿色基础设施。AMD承诺到2025年将产品能效提升30倍。台积电则加速推进3nm及以下制程的低功耗工艺,并投资绿色能源供电晶圆厂。
政策层面,欧盟《人工智能法案》已要求高风险AI系统披露能耗数据。美国能源部启动“AI能效基准测试”项目,推动行业透明化。中国“东数西算”工程也将能效作为数据中心布局的核心指标。
未来,每瓦特性能(Performance per Watt)将成为比绝对算力更重要的竞争维度。谁能在1瓦电力下完成更多有效计算,谁就掌握AI时代的“绿色话语权”。
今天,芯片公司正站在新的十字路口。它们手中的硅片,不仅承载着万亿参数的梦想,也背负着地球未来的重量。稀疏计算、低精度运算、存内计算……这些看似冰冷的技术术语,实则是通向绿色AI的桥梁。
我们期待的,不是一个耗尽地球资源的超级智能,而是一个与自然和谐共生的智慧文明。正如一位芯片工程师所言:“最好的算力,是那些从未被浪费的算力。”
—end—
推荐阅读:
聚焦国产 AI 芯片四大主力:燧原、壁仞、摩尔线程、沐曦实力拆解
NVIDIA H100 到 Google TPU V5:大模型背后的AI算力军备竞赛

