

显卡基础知识｜英伟达算力开挂的GPU！

极市平台

2025-06-03

导读：AI模型训练和推理对算力的要求各有特点，如何在具体的场景下综合权衡选择显卡算力，怎样才能达到性能、能耗和成本

AI模型训练和推理对算力的要求各有特点，如何在具体的场景下综合权衡选择显卡算力，怎样才能达到性能、能耗和成本的最佳平衡。本文围绕这个问题，介绍下关于显卡的基础知识：

1）模型训练和推理中常见的浮点数精度和显卡的算力介绍
2）英伟达显卡架构和命名方式
3）由单张GPU显卡到计算节点和集群，对模型训练方式的选择。

1, 显卡参数和算力计算

1.1 显卡参数介绍

浮点数通用结构（IEEE 754 标准）所有浮点数均由 符号位（S）、指数位（E）、尾数位（M） 组成.

显卡的算力在不同的数值精度下是不同的，浮点精度一般包括，双精度(FP64)、单精度(FP32、TF32)、半精度(FP16、BF16)、8位精度 (FP8)、4位精度(FP4、NF4)。量化精度一般包括，INT8、INT4 也有INT3/INT5/INT6等。两个特殊精度，TF32和BF16分别为英伟达和谷歌专门为优化AI计算而提出的一种数值格式。BF16 牺牲尾数精度（仅7 位）换取与 FP32 同等的指数范围，专为深度学习中 “防止梯度爆炸” 设计，适用于大规模模型训练。

• 指数位越长：数值范围越大（如 TP16 的 8 位指数使范围接近 FP32）。
• 尾数位越长：精度越高（如 FP64 的 52 位尾数提供 15 位以上有效数字）。
• FP8/FP6/FP4：目前只有特定类型的显卡，对硬件优化才支持。

下表是在不同数值下A100、H100 和H200的算力。

代表型号	A100	H100	H200
HBM大小	80GB	80GB	141GB
HBM带宽	2TB/s	3.35TB/s	4.8TB/s
FP64	9.7T	30T	43T
FP64 (Tensor Core)	19.5T	60T	67T
FP32	19.5T	60T	67T
TP32 (Tensor Core)	156T	1P	989T
FP16 (FLOPS)	312T	2P	1979T
BF16 (Tensor Core)	312T	2P	1979T
FP8 (FLOPS)	/	4P	3958T
INT8 (OPS)	624T	4P	3958T
INT4 (OPS)	1248T	/	/
NVLink 带宽	600GB/s	900GB/s	900GB/s
功耗	400W	700W	700W

对于deepseek R1 官方推出的是 FP8 的参数权重版本，目前对于A100 是不支持的，只有经过转换成INT8后才能在更多的GPU显卡上支持，解锁算力限制。

详细的参数如下：

• 核心数量 (CUDA Cores/Stream Processors)

GPU的并行计算单元数量，NVIDIA称CUDA Core。核心越多，并行任务处理能力越强。多个CUDA Core和寄存器、共享内存调度器等共同构成一个SM（Stream Multiprocessors），层级包含关系为 CUDA Core - SM - GPU。比如A100有108个SM，每个SM包含64个CUDA Core。

• 核心频率 (Clock Speed)

GPU核心工作频率(MH/GHz)，分基频和加速频率。频率越高，单线程任务响应越快。但高频增加功耗(TDP) 和发热。

• HBM (High Bandwidth Memory) 大小

表示GPU内存的容量，提供存储模型、数据的空间。较大的HBM有助于处理更大的数据集，并支持更复杂的计算任务。

• HBM带宽

指数据在GPU和存储之间传输的速度。更高的带宽可以加快数据访问速度，减少计算时的瓶颈，提高总体性能。

• 计算性能 FP16/FP8/FP6/FP4 (FLOPS) 和INT8 (OPS)

代表不同数据精度下的计算能力，单位FLOPS (Floating Point Operations Per Second) 表示浮点运算每秒的次数，OPS （Operations Per Second）表示整数运算每秒的次数。数字精度越低（如FP8或NT8），能够实现的计算性能通常越高，因为较低精度能在硬件上更高效地实现，适合于需要快速处理大量数据的任务，如神经网络推理。

• NVLink带宽

NVLink是英伟达的高速互连技术，用于多个GPU之间的通信。更高的NVLink带宽意味着多个GPU之间可以更快速地共享数据，提高分布式计算效率。

• 功耗 (Powers)

指GPU在运行时的能耗，即消耗的电力。功耗越高，说明GPU能进行更多的复杂计算，但也需要更好的散热和供电设计。

1.2 Tensor Core 和 CUDA Core

Tensor Core：是专用加速单元，针对矩阵乘法（如深度学习中的GEMM)优化，显著提升AI计算效率。偏科大神！

CUDA Core：是通用计算单元，适合多样化并行任务。是一个全面发展的多能手。

所以在显卡的参数列表中，针对Al任务，使用Tensor Core技术有对特定精度数值的优化，Tensor Core的吞吐量可达CUDA Core的数十倍，例如A100使用Tensor Core 的TF32精度提供312 TFLOPS性能，而CUDA Core使用FP32精度，仅为19.5 TFLOPS。

使用场景不同：

Tensor Core：训练大模型时启用混合精度 (FP16/BF16+FP32)。推理加速，如TensorRT优化后的模型。

CUDA Core：游戏道染（需低延迟FP32)。传统HPC （如流体模拟）。

最近推出的GPU同时包含CUDA Core和Tensor Core, CUDA Core处理控制逻辑和标量运算，Tensor Core加速核心矩阵计算。

1.3 算力计算

以NVIDIA A100 GPU为例，通过以下参数计算其理论峰值算力。

• CUDA核心数：6912个，即108个SM，每个SM包含64个CUDA核心。
• 核心运行频率：1.41GHz。
• 每核心单个周期浮点计算系数：2 ，即每个时钟周期内能执行的浮点运算次数。Tensor Core融合了乘加指令，一次指令执行会计算两次。

公式：A100的算力(FP32单精度) = CUDA核心数×加速频率×每核心单个周期浮点计算系数

即：6912×1.41×2= 19491.84 GFLOPS= 19.5 TFLOPS。

2，算力芯片的命名

GPU 的型号比如 A100， H100，L40，B200 等有时让人摸不着头脑，在了解芯片的架构基本命名规则后，就能有很好的理解。

架构名： GPU芯片一般会使用历史名人进行命名，代表型号通常会取架构代号的首字母再加上系列标号。如：

• Ampere （安培）：2020年推出的一代架构，用于A100和RTX3000系列显卡。
• Lovelace （阿达洛夫莱斯）：2022年推出的一代架构，用于RTX 4000系列显卡如，RTX 4090。

系列编号： 在产品名称中可能包含数字以表示层级或代系，例如 RTX 4090中的 ”4090“ 表示该产品是该系列的最高端型号。比如

• L40：基于Ada Lovelace架构的高性能计算GPU，通常用于数据中心和云服务。
• A100：基于Ampere架构的GPU，专门为深度学习和高性能计算设计，被广泛应用于AI训练等任务。
• RTX 3090：属于Ampere架构，主要用于游戏和高性能图形处理，强调游戏性能。

以下常见GPU架构和型号一览表。

架构代号	中文名称	发布时间	制程工艺	代表型号
Tesla	特斯拉	2006	90nm/65nm	G80, GT200
Fermi	费米	2010	40nm	GTX 480, Quadro 7000
Kepler	开普勒	2012	28nm	K80, K40M
Maxwell	麦克斯韦	2014	28nm	GTX 980, M5000
Pascal	帕斯卡	2016	16nm	P100, GTX 1080 Ti
Volta	伏特	2017	12nm	V100, Titan V
Turing	图灵	2018	12nm	RTX 2080 Ti, T4
Ampere	安培	2020	7nm/8nm	A100, RTX 3090
Hopper	赫柏	2022	4nm	H100
Ada Lovelace	阿达洛夫莱斯	2022	5nm	L40，L40s，TRX4090
Blackwell	布莱克韦尔	2024	4nm/5nm	B200, GB200

3，超级芯片Superchip

超级芯片一言以蔽之： CPU+GPU 并利用NVLink高速互联技术构建的算力单元。

其核心理念是：通过 CPU+GPU异构计算单元的深度整合，重构AI计算的性能之光。典型代表采用Hopper架构的GH200和采用Blackwell架构的GB200。

硬件架构主要两部分：

• Grace CPU：基于ARM架构的自研CPU，专为高能效比设计，支持高带察内存和纠错能力，适合数据预处理、逻辑控制等任务
• GPU算力单元：提供大规模并行计算能力，专注于AI训练、推理及科学计算。

互联技术：通过NVLink-C2C (Chip-to-Chip) 实现CPU与GPU间的超高带宽，远超传统PCle显著降低通信延迟。

典型配置：

• GB200：1颗Grace CPU + 2颗Blackwell B200 GPU。
• GH200：1颗Grace CPU + 2颗Hopper H200 GPU 。

为什么需要超级芯片：

• CPU+GPU协同计算：Grace CPU负责通用任务调度和复杂逻辑处理，GPU专注并行计算，通过NVLink实现超低延迟数据交换，形成”1+1>2的算力聚合。
• 统一内存架构：Grace CPU与GPU共享内存空间，减少数据搬运开销，提升效率。

4，超级节点super Pod

超级节点Super Pod 是英伟达提出的单机即集群 (Single- Node Cluster) 的高性能计算架构，通过极致集成“CPU+GPU+高速互联”，将传统需要多台服务器协作的任务压缩到单个物理节点内完成，从而消除跨节点通信开销，实现超低延迟和高吞吐计算。

核心特点：

• 超大规模单节点算力：集成教百个CPU核心+多颗顶级GPU (如Grace和 Hopper架构）。
• 统一内存架构：CPU与GPU共享内存空间 (如GH200的480GB HBM3)，避免数据搬运瓶颈。
• 全NVLink互联：芯片间通过NVLink-C2C直连，带宽达900GB/s+，延迟仅纳秒级。

超级芯片superchip 在一定程度上可以叫做一台计算机了，或是一个节点。英伟达基于超级芯片构建了适用于不同领域的超级计算机，比如：DGX (AI数据中心)、EGX （边缘计算）和HGX （超大规模集群）。

5， GPU之间互联互通

随着大模型的参数规模越来越大，模型训练和推理需要更多的算力资源，多张GPU之间和节点之间是怎样互联互通的？无非两种方式，纵向扩展Scale-up，一个节点内连接多张GPU。横向扩展Scale-out，连接多个节点组成计算集群。

• 一机多卡纵向扩展 Scale-up

在单个服务器内，通过NVLink或NVSwitch将多个GPU与CPU互联，形成统一内存池。单节点内的极致性能技术实现，例如，DGX H100单节点内8颗H100 GPU通过NVLink全互连，共享显存带宽达7.2TB/s。

优势：突破单卡算力限制，支持单节点运行万亿参数大模型。降低通信开销，GPU间数据交换无需经过PCle总线，延迟降低10倍以上。通过CUDA自动优化，开发者可像操作单个GPU一样调用多GPU资源。适合单任务高吞吐需求

• 多机多卡横向扩展 Scale-out

通过InfiniBand或以太网连接多个节点，构成分布式算力池，使用NVIDIA Quantum-2 交换机或Spectrum-X以太网平台构建无损网络，软件层通过NCCL和Magoum 10优化跨节点通信效率。

优势：无限算力扩展，支持千卡级GPU集群，如英伟达的超级计算机Eos就含4608颗H100，堪称地表最快。任务井行化，可将单一任务拆解至多节点，如分布式训练、多物理场耦合仿真。资源隔离与弹性，按需分配算力，支持混合负载，如同时运行AI训练与推理。典型场景，分布式计算需求，超大规模预训练。

• Scale-up 和Scale-out 比较

维度	Scale-up（纵向扩展）	Scale-out（横向扩展）
通信效率	单节点内NVLink（延迟<1μs，带宽TB级）	跨节点InfiniBand（延迟~5μs，带宽400Gbps）
适用并行技术	张量并行、流水线并行、小规模数据并行	数据并行、跨节点流水线并行、混合并行
显存利用率	共享显存池，支持超大参数层	依赖分布式显存，需结合模型切分策略
扩展上限	单节点物理限制（如8卡/16卡）	理论上无限扩展（如NVIDIA Eos的4608 H100）
典型场景	单任务高吞吐（训练/推理）、显存密集型计算	超大规模预训练、多任务混合负载、弹性资源分配

实际应用中，Scale-up + 张量/流水线并行，解决单节点内显存与计算效率问题，适合高密度任务；Scale-out + 数据/混合并行：突破算力与数据规模限制，支持超大规模训练。

• Scale-up与Scale-out的协同

英伟达平台通过分层互联架构实现两种扩展模式的无缝结合，层级化设计：

第一层节点内：NVLink互联GPU，最大化单节点算力密度。
第二层机柜内：NVSwitch或Quantum-2互联多个节点，构建机柜级算力单元(如DGX Superpod)。
第三层跨机柜：通过Spectrum-X或infiniBand网络扩展至超大规模集群。

技术优势：通信效率最大化：90%以上的数据在节点内通过NVLink交换，仅10%跨点通信。灵活部署：从单机多卡 (Scale-up) 到多机多卡(Scale-out) 统一架构，降低迁移成本。

总结

为了达到性能、能耗和成本的最佳平衡，GPU的选择应根据具体使用情景来综合权衡选择。

• 高HBM大小和带宽，配合高FLOPS/OPS能够显著提升GPU处理数据的能力，可以更快速地处理大型模型数据，在训练深度学习模型时表现突出。例如，B100/B200系列配备8TB/s的HBM带宽，相较于H100系列高了几个档次。
• NVLink带宽决定了多个GPU协作时的效率。在多个GPU协同工作中，如用于大规模并行计算或训练巨型AI模型，NVLink带宽越高，越能够帮助减少数据传输瓶颈。
• FP16与FP8等较低精度的计算能力，相比FP32等较高精度会有显著提升，有助于神经网络推理中，快速且资源较少的运算需求。H100和H200的FP8用于推理场景，可以实现更快的计算速度。