大数跨境
0
0

从零训练大语言模型训练时长估算

从零训练大语言模型训练时长估算 AI算法之道
2025-07-12
0
导读:大语言模型训练时长估算







题目: 在一个15T Tokens的数据集上,基于1024张H100训练一个70B参数量的模型,预估需要几天时间?

01

大语言模型训练成本

大型语言模型(LLM)是自然语言处理领域的一场革命。若要在项目中使用OpenAI等公司提供的LLM,我们需要支付高昂费用。于是问题来了:为何不从头开始训练自己的LLM,从而无需向其他公司付费?让我们来剖析从头训练LLM所需的成本。一般来说大模型的训练成本主要取决于以下核心因素:

  • 模型参数量

  • 训练Tokens数量

  • 硬件配置

如何进行成本估算?

一般来说训练LLM的成本估算可分为两个部分:算力成本和硬件实际利用效率。我们分别来进行说明。

02

训练算力成本估算

训练成本估算的第一步是计算模型训练过程算力消耗的成本,即在整个训练周期内所需的浮点运算总量(flops)。

这一计算的核心逻辑可拆解为以下关键步骤:

  • 公式推导

    • 前向传播阶段:

      • 每个模型参数需执行 1次加法 和 1次乘法 运算,单参数消耗 2 FLOPS。

    • 反向传播阶段:

      • 每个模型参数需执行 2次加法 和 2次乘法 运算用于梯度计算和参数更新,所以单参数消耗 4 FLOPS。

    • 综合计算

      • 每个参数的完整前向+反向传播过程共产生 6 FLOPS(2+4)。

因此,对于包含 N个参数的模型,处理单个Token需消耗6×N FLOPS。当模型在 P个训练Tokens上进行训练时,总运算量公式为:

total_flops=6×N×P

我们回到问题中,所训练模型的参数为70B,训练的Tokens数目为15T,因此所需的算力估算为:

total_flops = 6 * 70e9 * 15e12 = 6.3e24


03

每天硬件算力预估

训练成本估算的第二阶段聚焦于硬件相关成本计算,其核心变量是训练使用的GPU/TPU类型及其实际运算效率。以下为详细推导过程:

  • 关键参数解析

    • GPU理论算力

      image.png一台NVIDIA H100 GPU在半精度(FP16)模式下理论峰值算力为:

      h100_flop_per_sec =989TFLOPS/秒 = 9.89×10¹⁴ FLOPS/秒

    • 模型浮点运算利用率(MFU)
      实际训练中,MFU通常因内存带宽限制、通信延迟、流水线气泡等因素显著低于理论值。这里我们不妨假设mfu=0.5。

    • 估算每天硬件算力

      综合上述分析,则1024张H100每天的算力为:

      flops_per_day = h100_flop_per_sec * mfu * 1024 * 60 * 60 * 24  = 4.377e22

04

训练时长预估

经过上述分析,我们有了训练70B模型所消耗的算力的总量,以及1024张H100每天可以产生的算力预估,那么接下来我们便可以估算训练所需的天数了,公式如下:

days =total_flops / flops_per_day=143.927 天


因此,我们可以知道从零开始使用1024张H100在15T Tokens语料库上训练一个70B参数量的大语言模型,大约需要143天,这个成本还是巨大的!!!

您学废了吗?

【声明】内容源于网络
0
0
AI算法之道
一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
内容 573
粉丝 0
AI算法之道 一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
总阅读256
粉丝0
内容573