1)模型训练和推理中常见的浮点数精度和显卡的算力介绍
2)英伟达显卡架构和命名方式
3)由单张GPU显卡到计算节点和集群,对模型训练方式的选择。
1, 显卡参数和算力计算
1.1 显卡参数介绍
浮点数通用结构(IEEE 754 标准)所有浮点数均由 符号位(S)、指数位(E)、尾数位(M) 组成.
显卡的算力在不同的数值精度下是不同的,浮点精度一般包括,双精度(FP64)、单精度(FP32、TF32)、半精度(FP16、BF16)、8位精度 (FP8)、4位精度(FP4、NF4)。 量化精度一般包括,INT8、INT4 也有INT3/INT5/INT6等。两个特殊精度,TF32和BF16分别为英伟达和谷歌专门为优化AI计算而提出的一种数值格式。BF16 牺牲尾数精度(仅7 位)换取与 FP32 同等的指数范围,专为深度学习中 “防止梯度爆炸” 设计,适用于大规模模型训练。
-
• 指数位越长:数值范围越大(如 TP16 的 8 位指数使范围接近 FP32)。 -
• 尾数位越长:精度越高(如 FP64 的 52 位尾数提供 15 位以上有效数字)。 -
• FP8/FP6/FP4:目前只有特定类型的显卡,对硬件优化才支持。
下表是在不同数值下A100、H100 和H200的算力。
| 代表型号 | A100 | H100 | H200 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
对于deepseek R1 官方推出的是 FP8 的参数权重版本,目前对于A100 是不支持的,只有经过转换成INT8后才能在更多的GPU显卡上支持,解锁算力限制。
详细的参数如下:
-
• 核心数量 (CUDA Cores/Stream Processors)
GPU的并行计算单元数量,NVIDIA称CUDA Core。核心越多,并行任务处理能力越强。多个CUDA Core和寄存器、共享内存调度器等共同构成一个SM(Stream Multiprocessors),层级包含关系为 CUDA Core - SM - GPU。比如A100有108个SM,每个SM包含64个CUDA Core。
-
• 核心频率 (Clock Speed)
GPU核心工作频率(MH/GHz),分基频和加速频率。频率越高,单线程任务响应越快。但高频增加功耗(TDP) 和发热。
-
• HBM (High Bandwidth Memory) 大小
表示GPU内存的容量,提供存储模型、数据的空间。较大的HBM有助于处理更大的数据集,并支持更复杂的计算任务。
-
• HBM带宽
指数据在GPU和存储之间传输的速度。更高的带宽可以加快数据访问速度,减少计算时的瓶颈,提高总体性能。
-
• 计算性能 FP16/FP8/FP6/FP4 (FLOPS) 和INT8 (OPS)
代表不同数据精度下的计算能力,单位FLOPS (Floating Point Operations Per Second) 表示浮点运算每秒的次数,OPS (Operations Per Second)表示整数运算每秒的次数。数字精度越低(如FP8或NT8),能够实现的计算性能通常越高,因为较低精度能在硬件上更高效地实现,适合于需要快速处理大量数据的任务,如神经网络推理。
-
• NVLink带宽
NVLink是英伟达的高速互连技术,用于多个GPU之间的通信。更高的NVLink带宽意味着多个GPU之间可以更快速地共享数据,提高分布式计算效率。
-
• 功耗 (Powers)
指GPU在运行时的能耗,即消耗的电力。功耗越高,说明GPU能进行更多的复杂计算,但也需要更好的散热和供电设计。
1.2 Tensor Core 和 CUDA Core
Tensor Core:是专用加速单元,针对矩阵乘法 (如深度学习中的GEMM)优化,显著提升AI计算效率。偏科大神!
CUDA Core:是通用计算单元,适合多样化并行任务。是一个全面发展的多能手。
所以在显卡的参数列表中,针对Al任务,使用Tensor Core技术有对特定精度数值的优化,Tensor Core的吞吐量可达CUDA Core的数十倍,例如A100使用Tensor Core 的TF32精度提供312 TFLOPS性能,而CUDA Core使用FP32精度,仅为19.5 TFLOPS。
使用场景不同:
Tensor Core:训练大模型时启用混合精度 (FP16/BF16+FP32)。推理加速,如TensorRT优化后的模型。
CUDA Core:游戏道染 (需低延迟FP32)。传统HPC (如流体模拟)。
最近推出的GPU同时包含CUDA Core和Tensor Core, CUDA Core处理控制逻辑和标量运算,Tensor Core加速核心矩阵计算。
1.3 算力计算
以NVIDIA A100 GPU为例,通过以下参数计算其理论峰值算力。
-
• CUDA核心数:6912个,即108个SM,每个SM包含64个CUDA核心。 -
• 核心运行频率:1.41GHz。 -
• 每核心单个周期浮点计算系数:2 ,即每个时钟周期内能执行的浮点运算次数。Tensor Core融合了乘加指令,一次指令执行会计算两次。
公式:A100的算力(FP32单精度) = CUDA核心数×加速频率×每核心单个周期浮点计算系数
即:6912×1.41×2= 19491.84 GFLOPS= 19.5 TFLOPS。
2,算力芯片的命名
GPU 的型号比如 A100, H100,L40,B200 等有时让人摸不着头脑,在了解芯片的架构基本命名规则后,就能有很好的理解。
架构名: GPU芯片一般会使用历史名人进行命名,代表型号通常会取架构代号的首字母再加上系列标号。如:
-
• Ampere (安培):2020年推出的一代架构,用于A100和RTX3000系列显卡。 -
• Lovelace (阿达洛夫莱斯):2022年推出的一代架构,用于RTX 4000系列显卡如 ,RTX 4090。
系列编号: 在产品名称中可能包含数字以表示层级或代系,例如 RTX 4090中的 ”4090“ 表示该产品是该系列的最高端型号。比如
-
• L40:基于Ada Lovelace架构的高性能计算GPU,通常用于数据中心和云服务。 -
• A100:基于Ampere架构的GPU,专门为深度学习和高性能计算设计,被广泛应用于AI训练等任务。 -
• RTX 3090:属于Ampere架构,主要用于游戏和高性能图形处理,强调游戏性能。
以下常见GPU架构和型号一览表。
| 架构代号 | 中文名称 | 发布时间 | 制程工艺 | 代表型号 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3,超级芯片Superchip
超级芯片一言以蔽之: CPU+GPU 并利用NVLink高速互联技术构建的算力单元。
其核心理念是:通过 CPU+GPU异构计算单元的深度整合,重构AI计算的性能之光。典型代表采用Hopper架构的GH200和采用Blackwell架构的GB200。
硬件架构主要两部分:
-
• Grace CPU:基于ARM架构的自研CPU,专为高能效比设计,支持高带察内存和纠错能力,适合数据预处理、逻辑控制等任务 -
• GPU算力单元:提供大规模并行计算能力,专注于AI训练、推理及科学计算。
互联技术:通过NVLink-C2C (Chip-to-Chip) 实现CPU与GPU间的超高带宽,远超传统PCle显著降低通信延迟。
典型配置:
-
• GB200:1颗Grace CPU + 2颗Blackwell B200 GPU。 -
• GH200:1颗Grace CPU + 2颗Hopper H200 GPU 。
为什么需要超级芯片:
-
• CPU+GPU协同计算:Grace CPU负责通用任务调度和复杂逻辑处理,GPU专注并行计算,通过NVLink实现超低延迟数据交换,形成”1+1>2的算力聚合。 -
• 统一内存架构:Grace CPU与GPU共享内存空间,减少数据搬运开销,提升效率。
4, 超级节点super Pod
超级节点Super Pod 是英伟达提出的单机即集群 (Single- Node Cluster) 的高性能计算架构,通过极致集成“CPU+GPU+高速互联”,将传统需要多台服务器协作的任务压缩到单个物理节点内完成,从而消除跨节点通信开销,实现超低延迟和高吞吐计算。
核心特点:
-
• 超大规模单节点算力:集成教百个CPU核心+多颗顶级GPU (如Grace和 Hopper架构)。 -
• 统一内存架构:CPU与GPU共享内存空间 (如GH200的480GB HBM3),避免数据搬运瓶颈。 -
• 全NVLink互联:芯片间通过NVLink-C2C直连,带宽达900GB/s+,延迟仅纳秒级。
超级芯片superchip 在一定程度上可以叫做一台计算机了,或是一个节点。英伟达基于超级芯片构建了适用于不同领域的超级计算机,比如:DGX (AI数据中心)、EGX (边缘计算)和HGX (超大规模集群)。
5, GPU之间互联互通
随着大模型的参数规模越来越大,模型训练和推理需要更多的算力资源,多张GPU之间和节点之间是怎样互联互通的?无非两种方式,纵向扩展Scale-up,一个节点内连接多张GPU。横向扩展Scale-out,连接多个节点组成计算集群。
-
• 一机多卡纵向扩展 Scale-up
在单个服务器内,通过NVLink或NVSwitch将多个GPU与CPU互联,形成统一内存池。单节点内的极致性能技术实现,例如,DGX H100单节点内8颗H100 GPU通过NVLink全互连,共享显存带宽达7.2TB/s。
优势:突破单卡算力限制,支持单节点运行万亿参数大模型 。降低通信开销,GPU间数据交换无需经过PCle总线,延迟降低10倍以上。通过CUDA自动优化,开发者可像操作单个GPU一样调用多GPU资源。适合单任务高吞吐需求
-
• 多机多卡横向扩展 Scale-out
通过InfiniBand或以太网连接多个节点,构成分布式算力池,使用NVIDIA Quantum-2 交换机或Spectrum-X以太网平台构建无损网络,软件层通过NCCL和Magoum 10优化跨节点通信效率。
优势:无限算力扩展,支持千卡级GPU集群,如英伟达的超级计算机Eos就含4608颗H100,堪称地表最快。任务井行化,可将单一任务拆解至多节点,如分布式训练、多物理场耦合仿真。资源隔离与弹性,按需分配算力,支持混合负载,如同时运行AI训练与推理。典型场景,分布式计算需求,超大规模预训练 。
-
• Scale-up 和Scale-out 比较
| 维度 | Scale-up(纵向扩展) | Scale-out(横向扩展) |
| 通信效率 |
|
|
| 适用并行技术 |
|
|
| 显存利用率 |
|
|
| 扩展上限 |
|
|
| 典型场景 |
|
|
实际应用中,Scale-up + 张量/流水线并行,解决单节点内显存与计算效率问题,适合高密度任务;Scale-out + 数据/混合并行:突破算力与数据规模限制,支持超大规模训练。
-
• Scale-up与Scale-out的协同
英伟达平台通过分层互联架构实现两种扩展模式的无缝结合,层级化设计:
第一层节点内:NVLink互联GPU,最大化单节点算力密度。
第二层机柜内:NVSwitch或Quantum-2互联多个节点,构建机柜级算力单元(如DGX Superpod)。
第三层跨机柜:通过Spectrum-X或infiniBand网络扩展至超大规模集群。
技术优势:通信效率最大化:90%以上的数据在节点内通过NVLink交换,仅10%跨点通信。灵活部署:从单机多卡 (Scale-up) 到多机多卡(Scale-out) 统一架构,降低迁移成本。
总结
为了达到性能、能耗和成本的最佳平衡,GPU的选择应根据具体使用情景来综合权衡选择。
-
• 高HBM大小和带宽,配合高FLOPS/OPS能够显著提升GPU处理数据的能力,可以更快速地处理大型模型数据,在训练深度学习模型时表现突出。例如,B100/B200系列配备8TB/s的HBM带宽,相较于H100系列高了几个档次。 -
• NVLink带宽决定了多个GPU协作时的效率。在多个GPU协同工作中,如用于大规模并行计算或训练巨型AI模型,NVLink带宽越高,越能够帮助减少数据传输瓶颈。 -
• FP16与FP8等较低精度的计算能力,相比FP32等较高精度会有显著提升,有助于神经网络推理中,快速且资源较少的运算需求。H100和H200的FP8用于推理场景,可以实现更快的计算速度。 -

