Stata and Python数据分析

2025-08-12

237

导读：Life is not all roses.

本文作者：赵晓岚，河南大学经济学院

本文编辑：崔雨晨

技术总编：马梦杰

Stata and Python 数据分析

爬虫俱乐部Stata基础课程、Stata进阶课程和Python课程可在小鹅通平台查看，欢迎大家多多支持订阅！如需了解详情，可以通过课程链接（https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10）或课程二维码进行访问哦~

导读

当数据一团乱麻时，描述性统计是我们手中的指南针！通过 Stata 的强大功能，我们可以快速把握数据的脉搏，包括分布特征、频率规律和变量关系，为后续深入分析打下坚实基础。

基本信息

describe 命令：快速查看数据结构。 describe 命令是查看数据集的基本结构的第一步，输出结果包含每个变量的名称、储存方式、显示格式、变量标签和变量值标签。
summarize：生成核心描述统计。 summarize（简称sum）命令用来汇总一个变量或者多个变量的描述性统计信息，描述数据变量的分布特征，生成五大关键指标：均值mean、标准差sd、最小值min、最大值max以及样本量n，是最常用的描述性统计命令之一。
tabulate命令：探索类别变量的频率分布。tabulate（简称tab）命令可以生成频数表，它能够帮助我们了解变量的类别分布情况。

案例实战

首先，清空环境

clear all

导入数据（记得替换自己的文件路径）

import excel "D:\data\数据.xlsx", firstrow clear

如图所示

describe命令

describe 描述命令，输出结果包含每个变量的名称、储存方式、显示格式、变量标签和变量值标签。
基本用法：查看特定变量的信息。

describe id year  //精准定位特定变量

detail ：产生更加详细的统计变量，除了变量名、存储类型、显示格式、变量标签还有观测值数量、变量数量等信息。

describe, detail

format ：修改显示格式。输出的数据显示格式有时需要根据实际需求调整，比如，想要让gdp 变量显示为两位小数，可以使用format命令修改显示格式：

format gdp %9.2fdescribe gdp

这将会在输出中将gdp变量的显示格式修改为包含两位小数的格式，如图：

summarize命令

summarize （简称sum）描述数据变量的分布特征，生成五大关键指标：均值mean、标准差sd、最小值min、最大值max以及样本量n
基本用法：查看一个或多个变量的描述性统计信息

单个变量：想分析一个变量，在命令窗口输入对应变量名，即输入summarize(可缩写为sum) con ，运行命令后，结果窗口会显示均值、标准差等统计量。

summarize con

如果希望同时分析多个变量的统计信息，可以在命令后加上其他，如sum id year con

summarize id year con income gdp f ,separator(3)  //每3个变量画一条分界线，视觉更清晰

summarize con income, detail //显示con和income的细节情况

如果我们只对某些统计量感兴趣，可以在summarize命令中使用 mean、sd 等选项来限制输出。例如，我们只想查看均值和标准差，而不显示最小值和最大值：

 summarize income  //计算统计量 display "均值 = " r(mean), "标准差 = " r(sd)  //展示统计量

其他命令选项
*if子句：如果我们只想查看满足某个条件的数据的描述性统计量，可以使用 if命令。例如，查看 income 在大于2017年的描述性统计：

summarize income if year > 2017

tabulate命令

tabulate（缩写为tab）在Stata中用于生成频数表，是处理类别变量的常用工具。tabulate 允许查看每个类别的频率、百分比及其他统计量，并且可以轻松地进行单变量和双变量的分析。

单变量：tabulate varname //显示该变量的每个类别的频数和百分比。

tabulate con,sort //通过sort排序并创建一维频数表

tabulate f, nolabel //显示原始数据，而不是其标签值

双变量：如果你想查看两个变量之间的关系，可以使用 tabulate 创建二重频数表（即交叉表），它显示了两个变量之间每个类别组合的频数。

tabulate con income

这将展示con 和income 两个变量的交叉频数表，帮助我们分析消费与收入的关系。
高级技巧：

tabulate con, plot // 自动生成条形图，更加直观地理解频数分布。stata17版本以上tabulate income, nofreq // 只显示百分比tabulate con, matcell(frequency_matrix) // 把频数表存入名为frequency_matrix的矩阵中tabulate con income, chi2 expected // 卡方检验

导出结果

使用sum2docx将描述性统计结果导出到Word文件中，sum2docx详细介绍请查看《学会了这些，分分钟提升你的毕业体验》这篇推文。

ssc install sum2docx  //没有安装的话，先安装此命令sum2docx con income gdp f using myfile.docx, ///replace stats(N mean(%9.2f) sd(%9.2f) min(%9.4f) max(%9.4f)) ///landscape title("描述性统计") font("Times New Roman",14,"black") ///pagesize(A4)

结语

数据探索没有标准答案，但描述性统计永远是第一步。掌握Stata描述性统计，无论是数值变量的分布特征，还是分类变量的隐藏关联，都能通过简单代码轻松掌握。从基础的describe理清数据结构，到summarize挖掘核心指标，再用tabulate探索变量关系，最后通过sum2docx输出结果，这些命令能让你在数据迷宫中快速找到分析方向，并为后续的模型构建和假设检验打下坚实基础。

声明：代码仅供学习使用，请勿用做任何商业行为！

重磅福利！为了更好地服务各位同学的研究，爬虫俱乐部将在小鹅通平台上持续提供金融研究所需要的各类指标，包括上市公司十大股东、股价崩盘、投资效率、融资约束、企业避税、分析师跟踪、净资产收益率、资产回报率、国际四大审计、托宾Q值、第一大股东持股比例、账面市值比、沪深A股上市公司研究常用控制变量等一系列深加工数据，基于各交易所信息披露的数据利用Stata在实现数据实时更新的同时还将不断上线更多的数据指标。我们以最前沿的数据处理技术、最好的服务质量、最大的诚意望能助力大家的研究工作！相关数据链接，请大家访问：(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或扫描二维码：