

Pandas GroupBy提速神技：40分钟到4秒

我爱数据科学

2025-11-22

导读：一行代码的魔力，让你的数据处理效率飙升你是否曾有过这样的经历——眼睁睁看着Pandas代码运行，进度条却像蜗

一行代码的魔力，让你的数据处理效率飙升

你是否曾有过这样的经历——眼睁睁看着Pandas代码运行，进度条却像蜗牛般缓慢爬行？

我曾经处理一个2500万行的数据集，在现代标准下并不算特别庞大，但我的分组聚合脚本却运行了整整40分钟。最让人沮丧的是，我并没有进行复杂的数学计算，仅仅是简单的分组求和。

直到我发现了那个微小调整，让处理时间缩短到了4秒。这个方法如此简单，我至今仍在懊恼为什么没有早点发现它。

40分钟瓶颈的根源

Pandas的groupby()方法功能强大，但就像跑车遇上堵车，性能取决于你的使用方式。

常见的性能杀手：

在未排序、未优化的列上进行分组
使用Python函数而非向量化函数
忽略as_index参数的控制
对同一对象重复进行聚合操作

看看我最初那个**"缓慢"的代码**：

import pandas as pd

df = pd.read_csv("sales_data.csv")

result = df.groupby("region")["sales"].sum()

看起来很简单，对吧？但我的region列是对象数据类型，包含数百万个重复字符串。这就像有一大堆乐高积木却没有分类盒——Pandas每次都得重新整理它们。

4秒解决的奇迹

解决方法只需一个预处理步骤：在调用groupby()之前，将分组列转换为category数据类型。

df["region"] = df["region"].astype("category")

result = df.groupby("region", observed=True, sort=False)["sales"].sum()

为什么这个方法有效：

category数据类型将每个唯一值只存储一次，在内部将行映射到整数
observed=True避免为未使用的类别级别创建空组
sort=False跳过分组排序，这个步骤通常并不必要

这一调整将我的运行时间从2400秒（40分钟）降到了约4秒。

速度提升的科学原理

想象一下邮寄信件的过程：

对象数据类型：每次都要完整写下地址信息
分类数据类型：为每个地址编号一次，之后只需在信封上写数字

这种"压缩"意味着更快的查找速度和更低的内存占用。Pandas无需反复比较长字符串——只需比较小整数即可。

在我的案例中：

步骤	耗时	内存使用
使用对象类型的GroupBy	40分钟	~2.8 GB
使用分类类型的GroupBy	4秒	~300 MB

适用场景

这个GroupBy技巧在以下情况下是救星：

分组列有重复字符串或低基数取值（如country、product_id、status）
不需要按字母顺序排列结果
想要减少大数据框的内存占用

以下情况效果不明显：

在数值列上分组（本身已很高效）
在高基数列上分组（如每行的唯一ID）

其他值得了解的GroupBy优化技巧

除了数据类型转换，你还可以尝试：

1. 分块预聚合

如果数据集太大无法装入内存，可分成小块处理再合并结果。

2. 搭配向量化函数使用`agg()`

避免在groupby中使用缓慢的Python函数，优先使用sum、mean、count等，而非apply(lambda x: ...)。

3. 单次完成多个聚合

不要这样写：

df.groupby("region")["sales"].sum()
df.groupby("region")["sales"].mean()

而应该：

df.groupby("region")["sales"].agg(["sum", "mean"])

4. 尝试Apache Arrow后端（Pandas ≥ 2.0）

提供更快的内部表示和更好的内存效率。

更深层的启示：数据类型至关重要

这个技巧的神奇之处不在于某个晦涩的Pandas hack，而在于对数据类型的尊重。Pandas建立在NumPy之上，而NumPy专为固定大小、高效的表示而设计。字符串既不固定大小也不高效——但分类数据类型可以。

把category想象成字典中的索引——正是它让大数据集能够像小数据集一样快速处理。

结语：小调整，大回报

那36分钟的时间节省仅来自一行代码的改变。这证明了Pandas中的性能问题通常有简单的解决方案——只要你知道在哪里寻找。

如果你的groupby()操作一直很慢，不妨尝试：

将分组列转换为category类型
禁用不必要的排序
避免在聚合中使用Python函数

你的运行时间（和咖啡预算）会感谢你的。

💬 轮到你了：你有没有发现过节省大量时间的Pandas技巧？在评论区分享吧——我可能会在下一篇文章中特别介绍它。

🏴‍☠️宝藏级🏴‍☠️ 原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳👉 Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫等，从入门到进阶！

长按👇关注- 数据STUDIO -设为星标，干货速递

【声明】内容源于网络

我爱数据科学

精通R语言及Python，传递数据挖掘及可视化技术，关注机器学习及深度学习算法及实现，分享大模型及LangChain的使用技巧。编著多本R语言、python、深度学习等书籍。

内容 322

粉丝 0

我爱数据科学精通R语言及Python，传递数据挖掘及可视化技术，关注机器学习及深度学习算法及实现，分享大模型及LangChain的使用技巧。编著多本R语言、python、深度学习等书籍。

总阅读160

粉丝0

内容322