

从零训练大语言模型训练时长估算

AI算法之道

2025-07-12

导读：大语言模型训练时长估算

题目：在一个15T Tokens的数据集上，基于1024张H100训练一个70B参数量的模型，预估需要几天时间？

大语言模型训练成本

大型语言模型（LLM）是自然语言处理领域的一场革命。若要在项目中使用OpenAI等公司提供的LLM，我们需要支付高昂费用。于是问题来了：为何不从头开始训练自己的LLM，从而无需向其他公司付费？让我们来剖析从头训练LLM所需的成本。一般来说大模型的训练成本主要取决于以下核心因素：

模型参数量
训练Tokens数量
硬件配置

如何进行成本估算？

一般来说训练LLM的成本估算可分为两个部分：算力成本和硬件实际利用效率。我们分别来进行说明。

训练算力成本估算

训练成本估算的第一步是计算模型训练过程算力消耗的成本，即在整个训练周期内所需的浮点运算总量（flops）。

这一计算的核心逻辑可拆解为以下关键步骤：

公式推导

前向传播阶段：

每个模型参数需执行 1次加法和 1次乘法运算，单参数消耗 2 FLOPS。

反向传播阶段：

每个模型参数需执行 2次加法和 2次乘法运算用于梯度计算和参数更新，所以单参数消耗 4 FLOPS。

综合计算

每个参数的完整前向+反向传播过程共产生 6 FLOPS（2+4）。

因此，对于包含 N个参数的模型，处理单个Token需消耗6×N FLOPS。当模型在 P个训练Tokens上进行训练时，总运算量公式为：

total_flops=6×N×P

我们回到问题中，所训练模型的参数为70B，训练的Tokens数目为15T,因此所需的算力估算为：

total_flops = 6 * 70e9 * 15e12 = 6.3e24

每天硬件算力预估

训练成本估算的第二阶段聚焦于硬件相关成本计算，其核心变量是训练使用的GPU/TPU类型及其实际运算效率。以下为详细推导过程：

关键参数解析

GPU理论算力
一台NVIDIA H100 GPU在半精度（FP16）模式下理论峰值算力为：

h100_flop_per_sec =989TFLOPS/秒 = 9.89×10¹⁴ FLOPS/秒

模型浮点运算利用率（MFU）
实际训练中，MFU通常因内存带宽限制、通信延迟、流水线气泡等因素显著低于理论值。这里我们不妨假设mfu=0.5。
估算每天硬件算力
综合上述分析，则1024张H100每天的算力为：

flops_per_day = h100_flop_per_sec * mfu * 1024 * 60 * 60 * 24 = 4.377e22

训练时长预估

经过上述分析，我们有了训练70B模型所消耗的算力的总量，以及1024张H100每天可以产生的算力预估，那么接下来我们便可以估算训练所需的天数了，公式如下：

days =total_flops / flops_per_day=143.927 天

因此，我们可以知道从零开始使用1024张H100在15T Tokens语料库上训练一个70B参数量的大语言模型，大约需要143天，这个成本还是巨大的！！！

您学废了吗？

【声明】内容源于网络

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

内容 573

粉丝 0

AI算法之道一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

总阅读256

粉丝0

内容573

从零训练大语言模型训练时长估算

公式推导

前向传播阶段：

每个模型参数需执行 1次加法 和 1次乘法 运算，单参数消耗 2 FLOPS。

反向传播阶段：

每个模型参数需执行 2次加法 和 2次乘法 运算用于梯度计算和参数更新，所以单参数消耗 4 FLOPS。

综合计算

每个参数的完整前向+反向传播过程共产生 6 FLOPS（2+4）。

因此，对于包含 N个参数的模型，处理单个Token需消耗6×N FLOPS。当模型在 P个训练Tokens上进行训练时，总运算量公式为：

关键参数解析

每个模型参数需执行 1次加法和 1次乘法运算，单参数消耗 2 FLOPS。

每个模型参数需执行 2次加法和 2次乘法运算用于梯度计算和参数更新，所以单参数消耗 4 FLOPS。