大数跨境

Stata查看变量信息的三个常用命令

Stata查看变量信息的三个常用命令 Stata and Python数据分析
2025-08-12
122
导读:Life is not all roses.

本文作者:赵晓岚,河南大学经济学院

本文编辑:崔雨晨

技术总编:马梦杰


Stata and Python 数据分析

爬虫俱乐部Stata基础课程Stata进阶课程Python课程可在小鹅通平台查看,欢迎大家多多支持订阅!如需了解详情,可以通过课程链接(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或课程二维码进行访问哦~


图片 

导读

当数据一团乱麻时,描述性统计是我们手中的指南针!通过 Stata 的强大功能,我们可以快速把握数据的脉搏,包括分布特征、频率规律和变量关系,为后续深入分析打下坚实基础。

基本信息


      describe 命令:快速查看数据结构。 describe 命令是查看数据集的基本结构的第一步,输出结果包含每个变量的名称、储存方式、显示格式、变量标签和变量值标签。
      summarize:生成核心描述统计。 summarize(简称sum)命令用来汇总一个变量或者多个变量的描述性统计信息,描述数据变量的分布特征,生成五大关键指标:均值mean、标准差sd、最小值min、最大值max以及样本量n,是最常用的描述性统计命令之一。
      tabulate命令:探索类别变量的频率分布。tabulate(简称tab)命令可以生成频数表,它能够帮助我们了解变量的类别分布情况。

案例实战
首先,清空环境
clear all
导入数据(记得替换自己的文件路径)
import excel "D:\data\数据.xlsx", firstrow clear
如图所示

describe命令

describe 描述命令,输出结果包含每个变量的名称、储存方式、显示格式、变量标签和变量值标签。
        基本用法:查看特定变量的信息。
describe id year  //精准定位特定变量 
detail :产生更加详细的统计变量,除了变量名、存储类型、显示格式、变量标签还有观测值数量、变量数量等信息。
describe, detail
format :修改显示格式。输出的数据显示格式有时需要根据实际需求调整,比如,想要让gdp 变量显示为两位小数,可以使用format命令修改显示格式:
format gdp %9.2fdescribe gdp
这将会在输出中将gdp变量的显示格式修改为包含两位小数的格式,如图:

summarize命令

summarize 简称sum) 描述数据变量的分布特征,生成五大关键指标:均值mean、标准差sd、最小值min、最大值max以及样本量n
         基本用法:查看一个或多个变量的描述性统计信息
单个变量:想分析一个变量,在命令窗口输入对应变量名,即输入summarize(可缩写为sum) con ,运行命令后,结果窗口会显示均值、标准差等统计量。
summarize con
如果希望同时分析多个变量的统计信息,可以在命令后加上其他,如sum id year con
summarize id year con income gdp f ,separator(3)  //每3个变量画一条分界线,视觉更清晰
summarize con income, detail //显示con和income的细节情况
如果我们只对某些统计量感兴趣,可以在summarize命令中使用 mean、sd 等选项来限制输出。例如,我们只想查看均值和标准差,而不显示最小值和最大值:
 summarize income  //计算统计量 display "均值 = " r(mean), "标准差 = " r(sd)  //展示统计量
其他命令选项
*if子句:如果我们只想查看满足某个条件的数据的描述性统计量,可以使用 if命令。例如,查看 income 在大于2017年的描述性统计:
summarize income if year > 2017

tabulate命令

tabulate(缩写为tab) 在Stata中用于生成频数表,是处理类别变量的常用工具。tabulate 允许查看每个类别的频率、百分比及其他统计量,并且可以轻松地进行单变量和双变量的分析。
单变量:tabulate varname  //显示该变量的每个类别的频数和百分比。
tabulate con,sort //通过sort排序并创建一维频数表
tabulate f, nolabel //显示原始数据,而不是其标签值
双变量:如果你想查看两个变量之间的关系,可以使用 tabulate 创建二重频数表(即交叉表),它显示了两个变量之间每个类别组合的频数。
tabulate con income
这将展示con 和income 两个变量的交叉频数表,帮助我们分析消费与收入的关系。
         高级技巧:
tabulate con, plot // 自动生成条形图,更加直观地理解频数分布。stata17版本以上tabulate income, nofreq // 只显示百分比tabulate con, matcell(frequency_matrix) // 把频数表存入名为frequency_matrix的矩阵中tabulate con income, chi2 expected // 卡方检验

导出结果

使用sum2docx将描述性统计结果导出到Word文件中,sum2docx详细介绍请查看《学会了这些,分分钟提升你的毕业体验》这篇推文。
ssc install sum2docx  //没有安装的话,先安装此命令sum2docx con income gdp f using myfile.docx, ///replace stats(N mean(%9.2f) sd(%9.2f) min(%9.4f) max(%9.4f)) ///landscape title("描述性统计") font("Times New Roman",14,"black") ///pagesize(A4)



结语

 数据探索没有标准答案,但描述性统计永远是第一步。掌握Stata描述性统计,无论是数值变量的分布特征,还是分类变量的隐藏关联,都能通过简单代码轻松掌握。从基础的describe理清数据结构,到summarize挖掘核心指标,再用tabulate探索变量关系,最后通过sum2docx输出结果,这些命令能让你在数据迷宫中快速找到分析方向,并为后续的模型构建和假设检验打下坚实基础。



声明:代码仅供学习使用,请勿用做任何商业行为!



重磅福利!为了更好地服务各位同学的研究,爬虫俱乐部将在小鹅通平台上持续提供金融研究所需要的各类指标,包括上市公司十大股东、股价崩盘、投资效率、融资约束、企业避税、分析师跟踪、净资产收益率、资产回报率、国际四大审计、托宾Q值、第一大股东持股比例、账面市值比、沪深A股上市公司研究常用控制变量等一系列深加工数据,基于各交易所信息披露的数据利用Stata在实现数据实时更新的同时还将不断上线更多的数据指标。我们以最前沿的数据处理技术、最好的服务质量、最大的诚意望能助力大家的研究工作!相关数据链接,请大家访问:(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或扫描二维码:

图片

对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!







往期推文推荐
我用 Mermaid 画了《甄嬛传》角色关系图,结果……
爬虫俱乐部暑期Stata&Python编程训练营圆满结束!

Stata入门:twoway命令—分析可视化

用Bokeh搞定大型数据集流式可视化,超实用!

Stata入门:reshape命令---数据结构的“智能”变形
化繁为简:用高德地图API统计银行网点分布

探索 Stata 绘图:基于 S&P500 数据的可视化分析

Python Selenium爬取裁判文书网:从登录到批量下载全流程自动化

用正则表达式玩转混乱文本

Python实战-爬取政府采购网

万物皆有方程组吗?——利用deepseek构建基于极坐标下的莲花曲线

爬虫俱乐部2025暑期Stata&Python编程训练营开始报名啦!

当Stata遇上周易:数据分析师的Cyber算命指南与玄学新副业

【Python CleverCSV】让CSV文件处理更便捷

【Stata神技】Winsor2缩尾处理:3分钟拯救被"土豪"带偏的数据!

Stata矩阵 —— 开启高效数据分析的魔法之门

当川普遇到GPT——TimeGPT对川普币价格的时间序列预测分析

一图解千言:从理性函数到浪漫曲线

爬虫实战:中基协私募基金数据爬取与可视化分析

Stata绘图秘籍:代码打造极简时钟

DeepSeek霸榜微博?用爬虫解读微博用户的情感密码

一图读懂:中国各省金融许可证地理分布


关于我们 

   微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

   武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:1)必须原创,禁止抄袭;2)必须准确,详细,有例子,有截图;注意事项:1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

图片



【声明】内容源于网络
0
0
Stata and Python数据分析
爬虫俱乐部,新的启航
内容 1337
粉丝 0
Stata and Python数据分析 爬虫俱乐部,新的启航
总阅读11.3k
粉丝0
内容1.3k