随着大数据和计量经济学“可信性革命”(credibility revolution)席卷经济金融研究各领域,利用非结构化大数据和基于潜在因果模型的因果效应识别策略逐渐成为社会科学领域实证研究的通用研究范式,国内外高水平期刊计量研究的方法要求更高。
因此,这个暑期,我们邀请一众活跃在实证方法一线的青年学者为大家授课。有B站17万粉实证up、发表33篇CSSCI、SSCI的青年学者、以及发表ABS3及以上论文四篇的青年学者,点击以下链接可参与课程:
1.B站17万粉up亲授:Stata实证研究-编程基础、工具变量、内生性、稳健性、调节效应、中介效应
2.B站17万粉up亲授:经管文本分析与实证研究-Python+Stata,主题抽取、词频统计、文本相似性、情感分析、词嵌入
3.33篇CSSCI、SSCI论文拥有者亲授:经管文本分析技术-LDA模型、情感分析、词向量、句向量技术进阶
4.高潜青年学者亲授:Stata因果推断前沿:双重差分、断点回归、合成控制法、工具变量及顶刊论文

一、课程信息
二、参与方式
时间:2023年7月-2023年8月
听课方式: 线上腾讯会议
主讲老师:宋凯、邓浩然、施一宁
价格:按照链接价格为准,可按照实际支付金额开具电子发票。越早购买越划算,并有如下优惠,购买前找“神奇女侠”领取优惠码。
优惠方式:
-
优惠一:会员/老学员优惠(只能选择一个) ——数据皮皮侠数据会员(购买地址http://www.ppmandata.cn/)直接享受8折 ——之前购买过课程的老学员,直接8折 -
优惠二:集赞优惠,转发本推送到朋友圈2小时(不屏蔽)积赞20;或转发到100人以上年级群,并留言“很棒的文本分析课程”,享受8折优惠,可与优惠一叠加。 -
优惠三:实证会员尊享四折 PPdata实证SVIP享受4折购课价!!!(不与其他优惠叠加)
扫码支付(支持公务卡收款,联系客服微信获取付款码),组合报名与优惠咨询:

三、课程内容
3.1 Stata实证研究
第1讲 引言(1h)
1.实证研究概述 2.顶刊上的实证研究方法大赏 3.Stata概述、菜单操作 4.Stata命令与帮助文件 5.Stata常见编码问题 6.国内常用数据库数据导入存储导出
第2讲 Stata程序与编程(2h)
1.do文件创建与优化 2.局域暂元与全局暂元 3.Stata条件语句 4.Stata循环语句 5.Stata中的help文件,获取帮助文档的内容
第3讲 数据管理与可视化(3h)
1.变量转换:变量类型、字符变量与数值变量的处理、虚拟变量 2.处理缺失值&异常值:ARIMA线性插值填补等 3.实证指标计算:加减乘除、变量转换、均值、求和、滞后期变量、日期变量的处理 4.纵横向数据合并 5.描述性统计及论文表格输出:均值,中位数,标准差,分位数等 6.相关性矩阵及论文表格输出 7.数据可视化:散点图,柱状图,箱线图、双变量趋势图等 8.Wind数据转换为Stata面板数据 9.指标计算 :行业集中度、和芬达尔指数、对总资产取对数等常见指标
第4讲 回归模型及解释(3h)
1.常用模型设定检验与模型的诊断
普通最小二乘法(OLS) 固定效应模型&随机效应模型 Tobit/Probit/Logit回归 分位数/分组回归 二次项回归
2.回归与结果解释:系数解释,置信区间,显著性等 3.稳健与聚类-稳健标准误选择问题 4.固定效应应该固定哪些效应:个体、时间、行业、省份 5.不显著的解决思路(10余种) 6.例文软件实现与解读:梁上坤, 徐灿宇, 王瑞华. 董事会断裂带与公司股价崩盘风险[J]. 中国工业经济, 2020(3):19.
第5讲 稳健性和内生性(IV)(3h)
1.内生性来源以及内生性在论文中的意义 2.内生性与工具变量 3.IV估计量:IV、2SLS和GMM 4.恰好与过度识别模型的IV估计 5.弱工具变量与3SLS估计 6.寻找工具变量的多种思路 7.稳健性检验思路(10余种) 8.例文软件实现与解读:虞义华,赵奇锋,鞠晓生.发明家高管与企业创新[J].中国工业经济.2018(03)【工具变量 + 固定效应】
第6讲 中介效应与调节效应(3h)
1.调节效应模型与边际效应分解 2.调节变量如何选择 3.调节效应与分组回归 4.中介效应模型与检验方法 5.中介效应还能用,如何用? 6.例文解读:江艇. 因果推断经验研究中的中介效应与调节效应[J].中国工业经济.2022(05) 7.例文软件实现与解读:梁上坤, 徐灿宇, 王瑞华. 董事会断裂带与公司股价崩盘风险[J]. 中国工业经济, 2020(3):19.
3.2 经管文本分析与实证研究
第一讲:Python基础 (3小时)
1、Python语言:语法、注解、保留字、变量 2、数据类型——数字&字符串(变量类型设置) 3、数据类型——数组(列表、元组、集合、字典) 4、条件语句、循环语句和异常处理 5、强大的匿名函数lambda 函数 6、高效迭代-推导式 7、Python数据科学:包、模块、类、函数 8、Pandas、Numpy介绍 9、重复值、缺失值、“0”值、异常值处理 10、数据表记录(行)与字段(列)处理 11、多重索引、排序、重置数据(stack、melt) 12、分组计算(groupby、transform) 13、计量常用统计量(分组均值、移动平均值、方差、标准差) 14、表格批操作(apply) 15、表格文本数据处理、匹配(extractal) 16、数据拼接、合并(匹配)
第二讲:文本数据获取(3小时)
1、Python爬虫基础概要 3、深交所上市公司报告爬取 4、证监会官网公开报告爬取 5、上市公司企业社会责任报告爬取 6、PDF文本解析、图片识别文字 7、大量Word/txt文件自动化生成Excel面板数据
第三讲:文本数据处理(3小时)
1、中文英文分词及词频统计原理及Python案例 Case1:基于Excel文件计算上市公司年报MD&A数字化词频2010-2020 2、主题抽取原理及Python案例 Case2:基于简历大数据提取实证指标 3、句频统计原理及Python案例 Case3:多个关键词共现句子识别统计(基于政府工作报告) 4、文本相似性原理及Python案例 Case4:上市公司年报相似度 5、文本情绪分析原理及Python案例 Case5:上市公司年报文本语调 6、词嵌入模型原理及Python案例 Case6:基于上市公司年报构建经管实证指标
第四讲:文本分析+Stata实证(3小时)
1、文本分析经管实证应用概述 2、Stata实证简要介绍 3、文本分析实证论文复刻(Python+Stata):
复刻1:胡楠, 薛付婧, 王昊楠. 管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界, 2021,37(5):18. 复刻2:聂兴凯,王稳华,裴璇.企业数字化转型会影响会计信息可比性吗.[J]会计研究.会计研究.2022(05)
3.3 社科研究中的文本分析技术及应用
第一讲:社科学术研究中的文本分析
1.文本分析的相关概念 2.文本分析论文基本思路 3.Jupyter notebook快速入门 4.文本数据来源
第二讲:文本预处理技术
1.论文概览(1)-文本分词技术 2.中文分词-jieba库 3.英文分词-nltk库 4.Case1:词云图谱绘制:以论文文本数据为例 5.Case2:2001-2021年省政府工作报告环保类词频统计及热力图绘制 6.论文概览(2)-文本向量化技术 7.词袋模型 8.TFIDF计算
第三讲:文本主题挖掘技术
1.主题模型简介及类型 2.论文概览(3)-LDA主题模型的基本思路及学术应用 3.LDA主题模型在文本挖掘中的应用流程 4.Case3:基于LDA模型的学科领域主题挖掘与解析 5.论文概览(4)-DTM动态主题模型的基本思路及学术应用 6.DTM动态主题模型在文本挖掘中的应用流程 7.Case4:基于DTM动态主题模型的学科领域主题挖掘与解析 8.论文概览(5)-ATM作者主题模型在文本挖掘中的应用方式 9.ATM作者主题模型在文本挖掘中的应用流程 10.Case5:基于ATM作者主题模型的学科领域主题挖掘与解析
第四讲:文本聚类与相似度测度技术
1.论文概览(6)-文本主题挖掘的内容延伸 2.基于主题模型的文本聚类实现 3.余弦相似度计算流程 4.Case6:主题热度趋势图绘制 5.Case7:主题演进桑基图绘制 6.Case8:基于内容的个性化推荐实现—以论文推荐为例
第五讲:文本情感分析技术
1.情感分析介绍 2.论文概览(7)-情感分析的基本思路及学术应用 3.基于词典法的情感分析技术—SnowNLP库 4.基于机器学习的情感分析技术-支持向量机(SVM) 5.Case9:基于情感分析的用户评论情绪识别
第六讲:文本语义分析技术
1.Word2vec词向量模型介绍及学术应用 2.Word2vec词向量训练过程 3.Case10:《红楼梦》Word2vec实现-人物关联测度 4.Case11:基于Word2vec与深度神经网络的文本分类 5.Doc2vec句向量模型介绍及学术应用 6.Doc2vec句向量训练过程 7.Case12:Doc2vec实现论文相似度测度 8.Case13:Doc2vec+LOF算法实现离群点检测
3.4 Stata因果推断前沿
第一讲:社会科学因果推断基础(3h)
课程导论 2.因果推断的主流方法 3.顶刊因果推断模型方法及情况梳理 4.反事实因果框架 5.随机对照试验 6.自然实验
第二讲:双重差分法模型 (DID, 3h)
1.双重差分法模型的原理与简介 2.双重差分法:标准DID 3.Stata实例实操
3.1 DID数据生成与处理 3.2基于DID基本原理的Stata实现
4.DID模型的拓展
4.1 三重差分模型(DDD) 4.2 倾向匹配得分(PSM)的假设,匹配方法与优缺点 4.3 PSM-DID
论文精读
[1] Mian, A., & Sufi, A. (2022). Credit supply and housing speculation. The Review of Financial Studies, 35(2), 680-719. [2] 任胜钢等.排污权交易机制是否提高了企业全要素生产率——来自中国上市公司的证据.中国工业经济,2019(05) [3] Bertrand, M., Schoar, A., & Thesmar, D. (2007). Banking deregulation and industry structure: Evidence from the French banking reforms of 1985. The Journal of Finance, 62(2), 597-628. [4] Badarinza, C., & Ramadorai, T. (2018). Home away from home? Foreign demand and London house prices. Journal of Financial Economics, 130(3), 532-555. [5] 谢申祥等.传统PSM-DID模型的改进与应用.统计研究,2021 [6] 孙晓华等. “营改增”促进了制造业与服务业融合发展吗.中国工业经济,2019(08)
第三讲:多时点DID拓展(3h)
1.多拓展期DID政策效应动态图
1.1 Beck_Levine(2010)经典图 1.2 coefplot命令动态图
2.多期DID平行趋势检验图形实现
2.1 图示法 2.2 系数检验法
3.安慰剂检验的Stata实现
3.1 政策实施时间前置的安慰剂检验 3.2 处理组随机化处理的安慰剂检验
例文精读及复刻
[1] Favara, G., & Imbs, J. (2015). Credit supply and the price of housing. American Economic Review, 105(3), 958-92. [2] 曹清峰.国家级新区对区域经济增长的带动效应——基于70大中城市的经验证据.中国工业经济,2020(07) [3] 任胜钢等.排污权交易机制是否提高了企业全要素生产率——来自中国上市公司的证据.中国工业经济,2019(05) [4] Saiz, A. (2010). The geographic determinants of housing supply. The Quarterly Journal of Economics, 125(3), 1253-1296.
第四讲:DID模型变形(3h)
1.时变处理时间与持续期的灵活面板DID因果分析: 多时点DID/渐近DID/交叠DID/交错DID
1.1 多时点DID问题/TWFE 在估计静态模型时的潜在问题 1.2 Bacon系数分解定理, 1.3 负权重诊断法
2.异质性处理效应下的双向固定效应估计与模糊DID应用
2.1 模糊DID(Fuzzy DID)估计量与Stata实现 2.2 异质性处理效应时,双向固定效应估计还稳健吗? 2.3 异质性处理效应存在时的解决方法:
组别-时期平均处理:did_multiplegt、eventstudyinteract、csdid 插补估计量:did2s、did_imputation、event_plot、fect 堆叠回归估计量:stackedev 异质性DID--hdidregress+xthdidregress(hdidregress与xthdidregress)
例文精读:[1] Chaisemartin, Clément de,and Xavier D’Haultfoeuille. “Two-Way Fixed Effects Estimators withHeterogeneous Treatment Effects.” American Economic Review 110, no. 9(September 2020):2964–96
3.空间DID
3.1 忽略空间因素的DID结果可靠吗? 3.2 空间DID模型构建 例文精读:
[1]排污权交易、二氧化硫排放与经济高质量增长——基于空间双重差分模型 [2] Chagas, André L.S,Azzoni C R , Almeida A N . A spatial difference-in-differences analysis of theimpact of sugarcane production on respiratory diseases. Regional Science and Urban Economics, 2016. [3] Clarke D. Estimating difference-in-differences in the presence of spillovers[J]. 2017.
4.合成控制法(SCM)
4.1 合成控制法基本原理 4.2非参数合成控制法 4.3 SCM的稳健性检验 例文软件复刻:[1] Cerulli G. A flexible Synthetic Control Method for modeling policy evaluation[J]. Economics Letters, 2019.
第五讲:断点回归(RDD)(3小时)
1.精确断点回归 2.断点回归的检验(连续性检验、安慰剂检验) 3.模糊断点估计 例文软件精度复刻:[1] 黄薇 & 曹杨.(2022).常态化精准扶贫政策的完善:反福利依赖的视角. 经济研究(04),172-190.
第六讲:工具变量(IV)(3小时)
1.工具变量的定义及假设 2.二阶段回归 3.弱工具变量检测,过度识别检测等 例文软件精度复刻
[1] Angrist, J. D. (1990). Lifetime earnings and the Vietnam era draft lottery: evidence from social security administrative records. The american economic review, 313-336. [2] Angrist, J. D., & Krueger, A. B. (1991). Does compulsory school attendance affect schooling and earnings?. The Quarterly Journal of Economics, 106(4), 979-1014.







