

一文搞懂：什么是Mini-batch和Epoch？

Chris说出海

2025-10-22

导读：深度学习训练中的两个基本概念

引子

“这个模型训练了50个epoch，batch size是64。”

听起来很专业，但你真的明白它在说什么吗？

Mini-batch 和 Epoch，这两个词天天见，可很多人一直似懂非懂。

今天，我们不堆公式，不列术语，就用最直白的方式，把它们讲清楚。

场景

神经网络的训练，本质上是一场参数优化的过程。

它通过不断调整内部权重，让预测结果越来越接近真实标签。

但问题是：我们该用多少数据来更新一次参数？又该让模型看完整个数据集几遍？

这两个问题，分别对应的就是 Mini-batch 和 Epoch。

Mini-batch

理论上，我们可以用整个训练集算一次梯度再更新——这叫批量梯度下降，结果准，但太慢，显存也扛不住。

也可以每来一个样本就更新一次——这叫随机梯度下降（SGD），速度快，但波动太大，容易走偏。

于是，工程师选了个折中方案：每次拿一小批数据（比如32、64、128个样本）来更新一次参数。

这就是 Mini-batch。

Epoch

它既保留了并行计算的效率（GPU擅长同时处理一批数据），又让梯度估计相对稳定，收敛更可靠。

而且，这种适度的“噪声”反而有助于模型跳出局部最优，提升泛化能力。

举个例子：你有10,000个样本，设 batch size = 32，

那每32个样本组成一个 Mini-batch，模型用这32个样本算一次损失，反向传播，更新一次参数。

这个过程，叫做一次 iteration（迭代）。

但32个样本显然不够。

模型需要看到更多数据才能学会规律。

所以它一批一批地学，直到把10,000个样本全部过一遍。

当它完成这个“完整遍历”，我们就说：

它完成了一个 Epoch。

计算一下：10,000 ÷ 32 ≈ 312.5，所以一个 Epoch 会经历313次 iteration（最后一次不足32个样本）。

训练10个 Epoch，就是把整个数据集过10遍，总共更新参数约3,130次。

一个关键点：Shuffle

但这里有个关键细节：每一轮（Epoch）开始前，数据都会被打散（Shuffle）。

为什么？

想象一下，如果你的训练数据是先1000张猫，再1000张狗，再1000张猫……

如果顺序不变，模型可能会学到“前半段是猫，后半段是狗”这种虚假规律。

更糟的是，它可能一开始拼命学猫，学完又突然全变成狗，参数剧烈震荡。

所以，每个 Epoch 开始前，数据都会被随机打散。

这样，每个 Mini-batch 的组成都是随机的，模型无法依赖顺序，只能真正去学习“猫的特征”和“狗的特征”。

这就像你复习书本时，不会按页码顺序做题，而是打乱章节，避免“位置记忆”。

为什么需要多个 Epoch？

因为一遍根本学不会。

第一遍，模型可能只是“见过”这些数据；

第二遍，开始捕捉一些简单模式；

第三遍、第四遍……逐渐学会更复杂的特征。

这个过程，就像你复习一本习题集：第一遍错一堆，第二遍好一点，第三遍才真正掌握。

Epoch 越多越好吗？

所有绝对的东西，基本都是错误的，这个问题也不例外：Epoch 并不是越多越好。

如果刷太多遍，模型可能就从“学会”变成了“背答案”——记住了训练数据的每一个细节，但在新数据上表现很差。

这就导致了过拟合。

所以我们需要验证集来监控，及时停下。

刻意练习，反复强化

说到这里，你会发现：

模型的训练过程，其实和人类学习惊人地相似。

它不是靠“顿悟”，而是靠小步迭代 + 反复强化。它：

🎯 有明确目标（最小化损失），

📝 有反馈调整（梯度下降），

🚶‍♂️ 有小步迭代（Mini-batch），

🔁 有重复强化（多个epoch），

最终形成“直觉”。

这让我想到“刻意练习”理论——

真正的精通，来自于目标明确、反馈及时、专注重复的训练。

而神经网络，恰恰是这套方法的极致执行者。

它不偷懒，不跳步，

严格按照数据的反馈调整自己，

一遍遍打磨，直到逼近最优。

拓展：当资源受限时

现实中，我们常遇到资源限制。

比如，你手头只有一块小显卡，batch size 最大只能设32，

但你知道，更大的 batch size（比如256）能让训练更稳定。

怎么办呢？

工程师有个聪明的办法：梯度累积（Gradient Accumulation）。

它的原理是：

虽然不能一次性处理256个样本，但可以分8次，每次处理32个，

先计算梯度但不更新参数，把梯度“攒”起来，

等8次都完成后，再一起更新一次。

这样，等效 batch size 就是 256，但显存只用了32的量。

在工程中，你可能会看到 GRAD_ACCUM_STEPS=8这个配置，就是这个意思。

这就像你复习时，虽然每天只能消化50页，

但你知道“每8天做一次全面总结”效果更好。

于是你：

📚 前7天：每天学50页，记下重点和错题，但不总结；

📅 第8天：把前面350页的笔记集中复盘，调整学习策略。

这“攒够8天再总结”的节奏，就是梯度累积的思维。

结语

所以，AI并没有多神秘。

它没有“理解”能力，

它的“智能”，

是结构 + 数据 + 算法 + 计算力共同作用下的结果，

是一场精心设计的、自动化的“刻意练习”。

下次你再看到“训练了30个epoch，batch size=32”，

可以立刻明白它背后的过程：

一个模型，把6万张图片看了30遍，每次学32张，

每一轮都打乱顺序，避免死记硬背，

边学边改，

最终学会了识别猫狗、数字、人脸。

你呢？

你学习新东西时，是“一口气学完”，还是“每天学一点”？

你为掌握一个技能，会反复练习几轮？

欢迎在评论区聊聊。

【声明】内容源于网络

Chris说出海

跨境分享角 | 每日更新跨境思考

内容 44155

粉丝 0

Chris说出海跨境分享角 | 每日更新跨境思考

总阅读278.5k

粉丝0

内容44.2k