大数跨境
0
0

Stata基础数据清洗—国泰安系列

Stata基础数据清洗—国泰安系列 Stata and Python数据分析
2023-09-04
1
导读:You can learn great things from your mistakes when you aren't busy denying them.

本文作者:李书鹏 香港城市大学商学院

本文编辑:管文娜

技术总编:李婷婷







Stata and Python 数据分析

爬虫俱乐部Stata基础课程Stata进阶课程Python课程可在小鹅通平台查看,欢迎大家多多支持订阅!如需了解详情,可以通过课程链接(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或课程二维码进行访问哦~

导读
国泰安数据库(CSMAR)是结合中国实际国情开发的经济金融领域的研究型精准数据库。据官方披露的信息看,仅2023年使用国泰安数据研究的文章在诸如经济研究、管理世界、金融研究、JFRFSJCF等国内外顶刊中都有涉猎。正所谓,“风起于青萍之末”,本文将详细为大家介绍,如何利用Stata将国泰安数据处理成目前实证研究中使用最为广泛的面板数据,熟练掌握以及灵活运用相关命令将会大幅度减轻我们的工作量。下面我们用一个具体的例子为大家介绍如何利用stata处理该数据库中与公司研究系列相关的数据。
在与公司金融相关的研究中,当我们构建计量估计模型时,需要在模型中添加适当的控制变量来确保回归结果的稳健性,公司层面的控制变量有很多,本文将介绍最为常用的六个控制变量及其在Stata中的处理过程。
首先,我们需要在国泰安数据库公司研究系列下载原始数据,然后将包含数据的Excel文件导入Stata中进一步清洗以获取我们所需要的数据。需要说明的是,本文所使用的数据将样本区间设定在2015年-2022年,大家可以根据自己的研究所需去下载相应的数据。
一、公司规模(Size)、资产负债率(Lev)、资产回报率(ROA)

计算上述三个控制变量的原始数据均来自国泰安数据库公司研究系列的财务报表当中,其中,总资产与总负债来自资产负债表;净利润来自利润表。为节省篇幅,本文只展示资产负债表的处理过程,利润表的处理类同,大家可以自己动手尝试!参考已有研究,定义如下计算方法:
Size=年末总资产取对数
Lev=年末总负债与总资产的比值
ROA=年末净利润与总资产的比值

资产负债表原始数据截图如下:

以下给出Stata中的处理程序,并对相关命令作出详细说明:
*********资产负债表处理*****clear allcd f:/国泰安import excel using FS_Combas.xlsx, firstdrop in 1/2keep if Typrep== "A" //统一报表类型keep if index(Accper,"-12-31") //保留年度样本gen year = ustrregexs(0) if ustrregexm(Accper,"[0-9]{4}") //提取年份,这里方法有很多,大家可以自行选择drop Accper Typrep ShortNamedestring,replace //将字符型变量转化为数值型ren (A001000000 A002000000) (总资产 总负债)save 资产负债.dta,replace 
********计算Size、Lev、ROA***********clear allcd f:/国泰安use 资产负债.dta,clearmerge 1:1 Stkcd year using 净利润.dta //将资产负债表与利润表合并keep if _m==3drop _mgen Size=ln(总资产)gen Lev=总负债/总资产gen ROA=净利润/总资产save 控制变量.dta,replace
二、企业年龄(Age)、董事会独立性(Indep)、董事规模(Bsize)

计算这三个控制变量的原始数据同样来自国泰安数据库公司研究系列,其中企业的基本信息来自公司研究系列上市公司基本信息栏;董事会相关信息来自公司研究系列治理结构栏。参考已有研究,我们定义如下计算方法:
Age=企业上市年限
Indep=独立董事人数在董事会中的占比
Bsize=董事会人数取对数
上述三个控制变量在Stata中的实现,与“一”中所给出的程序基本类似,这里不再赘述!鼓励大家参考“一”中提及的程序,自己动手,体会Stata强大的数据处理能力。在过程中,大家如果遇到问题,可以私信爬虫俱乐部的公众号,我们会尽力为大家答疑解惑。最后,本文给出最终的结果截图并做相关说明。
最终结果截图:

可以看到,借助Stata强大的数据处理能力,我们很快速的便得到了一份2015-2022年常用公司层面控制变量的面板数据。当然,对于这份基础的数据,如果要应用到实际研究中,还需进一步处理,比如剔除缺失值、缩尾处理等。
END

重磅福利!为了更好地服务各位同学的研究,爬虫俱乐部将在小鹅通平台上持续提供金融研究所需要的各类指标,包括上市公司十大股东、股价崩盘、投资效率、融资约束、企业避税、分析师跟踪、净资产收益率、资产回报率、国际四大审计、托宾Q值、第一大股东持股比例、账面市值比、沪深A股上市公司研究常用控制变量等一系列深加工数据,基于各交易所信息披露的数据利用Stata在实现数据实时更新的同时还将不断上线更多的数据指标。我们以最前沿的数据处理技术、最好的服务质量、最大的诚意望能助力大家的研究工作!相关数据链接,请大家访问:(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或扫描二维码:


对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!











往期推文推荐

覆水难收!B站弹幕解读舆论情绪

【爬虫+可视化】租房难?pandas_bokeh助你快速筛选!
招聘全面启动,你找到适合自己的工作了吗?
“狗大户”疯狂投币!中东基金加速布局A股
【python可视化】立秋!酷热天气就此结束?全国各地高温地图一探究竟
Python爬取暑期票房排行
给文件搬家——copy&XCOPY
NLTK,全面的Python基础NLP库
爬取A股上市公司指定年份年报
机器学习——监督学习入门
‍‍禁忌魔法解封,击穿专业壁垒:ChatGPT code interpreter
暑期来啦~⼀起看⼀看近期的天⽓情况
【命令重磅更新】在Stata中深入使用ChatGPT
爬虫俱乐部2023第一期编程训练营开始报名啦!
【爬虫基础】Scrapy爬虫框架
迈向交互式编程,ChatGPT更新!
一个简单又好玩的Python库——MyQR
replace命令的“加强版”!——如何使用ereplace,结合egen
XML 轻松读取:用 Python 发现数据宝藏

爬虫俱乐部重磅推出cnstata.com.cn

     关于我们 

   微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

   武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com,或者直接联系我们的数据中台总工程司海涛先生,电话:18203668525,wechat: super4ht。海涛先生曾长期在香港大学从事研究工作,现为知名985大学的博士生,爬虫俱乐部网络爬虫技术和正则表达式的课程负责人。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:1)必须原创,禁止抄袭;2)必须准确,详细,有例子,有截图;注意事项:1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。





【声明】内容源于网络
0
0
Stata and Python数据分析
爬虫俱乐部,新的启航
内容 1337
粉丝 0
Stata and Python数据分析 爬虫俱乐部,新的启航
总阅读396
粉丝0
内容1.3k