大数跨境
0
0

科普|一文读懂“算力值PFlops”

科普|一文读懂“算力值PFlops” 九维图灵
2024-06-23
0
导读:·如何计算“算力值”·稠密算力与稀疏算力



算力中心

Computing power center


“智算中心”建设带动国内AI服务器市场火爆,从GPU卡➡️GPU服务器➡️智算中心的“投建运”等各个环节,都绕不开算力


算力,简单来说,是指计算能力,即计算机系统或设备在单位时间内处理数据和执行计算任务的能力。


算力通常以每秒执行的操作次数、每秒处理的数据量或完成特定计算任务所需的时间等指标来衡量。在现代信息技术领域,算力的强弱对于处理复杂的科学计算、大数据分析、人工智能训练与推理、图形图像处理等任务具有至关重要的作用。强大的算力能够显著提高计算效率,缩短计算时间,从而推动各领域的技术创新和应用发展。


算力值计算公式:

=核心数×时钟频率×每个周期的浮点运算次数


基本概念:

  • 处理器核心数:现代处理器通常拥有多个核心,每个核心可以独立执行指令。核心数越多,理论上并行处理能力越强

  • 时钟频率:处理器的时钟频率表示其每秒可以执行的周期数。频率越高,单个周期内完成的操作越多

  • FLOPS(Floating Point Operations Per Second):每秒浮点运算次数。这是衡量算力的基本单位,常见的有MFLOPS(百万次/秒)、GFLOPS(十亿次/秒)和TFLOPS(万亿次/秒)

影响算力的其他因素:

  • 系统架构:包括CPU和GPU的协同工作能力,以及它们与内存和存储系统的交互。

  • 软件优化:软件对特定硬件的优化程度,可以显著提升算力。

  • 功耗和散热:高算力往往伴随着高功耗和热量产生,需要有效的散热系统来维持稳定运行。

1

算力精度

Computing power center

不同场景对应算力精度的表示不同

信通院发布了《中国算力发展智算白皮书》,作为权威机构的材料,对如何衡量“基础算力”、“智能算力”和”超算算力”给出了明确的解释。


结论归纳:与智算中心或者AI相关(默认是FP16超算HPC(默认是FP64)、部分情况为了便于统计,会统一换算为FP32(目前见到的不多),通常都会备注清楚。

标准的FP英文全称是Floating Point,是IEEE定义的标准浮点数类型。由符号位(sign)、指数位(exponent)和小数位(fraction)三部分组成。和FP类似的还有TF32(全称Tensor Float 32),是英伟达提出的特珠的数值类型,用于替换FP32,当然也有google提出的BF16(Brain Float 16)。


常用参数:

  • FP32即32位浮点数,是一种常用的浮点运算格式。它的精度较高,适用于需要高精度计算的场景。FP32的算力值通常通过测量单位时间内完成的浮点运算次数(FLOPS,Floating Point Operations Per Second)来衡量。例如,一款显卡如果能在1秒内完成1万亿次FP32运算,那么它的FP32算力值就是1 TFLOPS(TeraFLOPS)。

  • FP16即16位浮点数,相较于FP32,它的精度略低,但运算速度更快,占用的内存也更少。在深度学习等领域,FP16得到了广泛应用。同样,FP16的算力值也是通过测量FLOPS来衡量的。由于FP16的数据宽度减半,因此在相同硬件条件下,其算力值理论上可以达到FP32的两倍。

  • INT8虽然INT8不是浮点运算,但它在算力值计算中也占据重要地位。INT8,即8位整数,是一种低精度、高效率的数值表示方式。在推理阶段(即模型已经训练完成,用于实际应用的阶段),使用INT8可以显著提高运算速度,降低能耗。因此,在评估一款计算设备的总体算力时,INT8的性能也是一个重要指标。

2

“稠密算力”

      v.s

“稀疏算力”

稠密算力 Dense Computing Power

定义

稠密算力指的是在计算过程中,数据点之间的关联度较高,需要处理大量连续的数据。这种算力通常用于需要密集型计算的任务,如图像处理、视频编码、大规模数值模拟等。


特点

  • 高数据吞吐量:需要处理大量数据,对内存带宽和存储速度有较高要求。

  • 高并行性:适合使用多核心处理器或GPU进行并行处理。

  • 高能耗:由于需要处理大量数据,能耗相对较高。

应用场景

  • 图像和视频处理

  • 科学计算和模拟

  • 大数据分析和机器学习

稀疏算力 Sparse Computing Power

定义

稀疏算力是指在计算过程中,数据点之间的关联度较低,数据分布稀疏。这种算力常用于处理稀疏矩阵或稀疏数据集,如社交网络分析、推荐系统、基因序列分析等。


特点

  • 优化存储:稀疏数据可以通过特殊的数据结构(如CSR或CSC)进行存储,以减少内存占用。

  • 计算效率:针对稀疏数据的算法可以减少不必要的计算,提高计算效率。

  • 低能耗:由于计算量相对较小,能耗较低。


应用场景

  • 社交网络分析

  • 推荐系统

  • 图算法

  • 生物信息学

英伟达GPU的“稀疏算力”

自 Ampere 架构开始, 随着 A100 TensorCore GPU 的推出,NVIDIA GPU 提供了可用于加速推理的细粒度结构化稀疏功能。


该功能可以加速推理。由稀疏 Tensor Core提供,这些稀疏 Tensor Core 需要2:4的稀疏模式。也就是说,以4个相邻权重为一组,其中至少有2个权重必须为0,即50%的稀疏率。这种稀疏模式可实现高效的内存访问能力,有效的模型推理加速,并可轻松恢复模型精度。


渐进式稀疏训练方法。腾讯机器学习平台部门(MLPD) 利用了渐进式训练方法,简化了稀疏模型训练并实现了更高的模型精度。借助稀疏功能和量化技术,他们在腾讯的离线服务中实现了1.3倍~1.8倍的加速。(网上数据)



微信号|JWSZ-Tech

 邮箱|support@9Dimension.tech


【声明】内容源于网络
0
0
九维图灵
软件定义算力,驱动智能生活
内容 16
粉丝 0
九维图灵 软件定义算力,驱动智能生活
总阅读0
粉丝0
内容16