中南财经政法大学财政税务学院、中南财经政法大学收入分配与现代财政学科创新引智基地张子尧,北京大学中国经济研究中心、北京大学国家发展研究院黄炜在最新一期《管理世界》发表论文《实证研究中的控制变量选择:原理与原则》,对实证研究的控制变量选择做出了教科书级的阐述!值得一读!
研究简介
控制变量的选择是决定因果推断类实证研究有效性的关键环节。论文系统阐释控制变量在观测性实证研究中的作用原理、选择标准、使用原则与实践建议。
利用潜在结果框架和线性回归模型估计量分解,明确控制变量在因果识别和统计推断两个核心环节的重要作用。在因果识别环节,“好”控制变量通过合理分层让观测性数据在局部尽可能近似于随机化实验,而“坏”控制变量会引入选择性偏误。在统计推断环节,“好”控制变量有助于减少数据噪音干扰,提高估计精度,而“坏”控制变量则会放大估计误差、降低统计功效。
控制变量的“好”与“坏”取决于其在因果结构中的位置,而研究者对因果结构的理解来源于社会科学理论和现实制度背景,故控制变量的选择应由理论驱动而非数据驱动。
在此基础上归纳实证研究中若干类常见控制变量的分类判别方法,总结提炼控制变量使用的5个基本原则:基于因果结构选择控制变量、高度重视坏控制变量问题、关注控制变量的重叠性、在复杂情况下权衡控制变量“利”“弊”,以及避免过度解读控制变量系数,并基于上述原则提出具体的实践建议。
论文为社会科学实证研究者优化研究设计提供了富有操作性的方法论框架,对提升实证研究的可信性、透明性和可复制性具有指导意义和参考价值。
参考来源
控制变量选择只是实证研究的一环,我们通过《Stata因果推断与实证论文班》系统从因果推断与stata入门讲起,通过ols、IV、PSM、DID、RDD、SCM、双重机器学习以及各类稳健性检验和顶刊论文发表经验,通过7大顶刊复现案例,帮助学友完整学会实证研究前沿全流程。
课程名称:Stata因果推断与实证论文班
课程时间:2025年10月26、11月2日、11月9日 上午9:30-12:00,下午14:00-18:00(11月9日可能提前结束)
授课方式:腾讯会议线上直播+课后回放(回放保留1年至2026年11月9日)
报名方式:
扫码报名
课程特色:
(1)夯实Stata操作基础:掌握数据管理、统计回归、结果输出的全流程Stata实操;
(2)掌握AI赋能逻辑:借助AI提升数据处理、代码生成、结果解读的效率与准确性;
(3)落地实证研究:实战案例对标顶刊论文中的研究场景,提供可直接复制的代码与操作指引。
(4)对标学术发表:梳理从选题到投稿的全流程技巧,直接对接学术发表目标。
李博士,来自中央财经大学,在《会计研究》、Jornal of Empirical Finance(ABS3)、Pacific Basin Finance Journal(ABS2)等SSCI、CSSCI以及核心期刊发表论文9篇,B站知识区Stata知名UP主,擅长Stata因果推断、宏观经济政策与微观企业行为。
3. 课程大纲
专题一 因果推断基础与Stata实证入门
(一)因果推断基础:潜在结果框架、因果图与随机化实验
1.潜在结果框架:辛普森悖论、潜在结果、稳定性假设、ATT/ATU/ATE估计
2、因果图:问题:混淆路径、对撞路径与过度控制;解决:以中介变量为条件;以共同原因为条件、以共同结果为条件
3条件期望函数与随机化实验:迭代期望函数;条件期望函数的基本性质;为什么要使用条件期望函数?完全随机化实验与分层随机化实验;独立性与条件独立性假设;匹配与回归
(二)Stata数据管理核心技能
1.基础操作:Stata界面熟悉、数据导入(excel、csv)与导出、变量重命名/标签/类型转换;
2.数据清洗:缺失值识别与处理、样本筛选与合并(merge、append、reshape与joinby);
3.AI辅助应用
(三)Stata进阶使用技巧
1.学术表格生成:reg2doc软件包的使用(四表(描述性;相关性;组间差异与回归));
2. 地级市、省份名称补全;绘图入门(散点图、折线图、条形图)
3. 经典变量生成:融资约束(SA、WW、KZ、FC)、公司治理水平、超额管理费用、风险承担等
4.AI辅助应用(如保留试点内企业在政策前和政策后都至少有一个观测值的企业)
专题二Stata因果推断:全面掌握OLS
(一)OLS核心推断问题
(1)模型有效设定:稳健标准误(聚类、Bootstrap);聚类层级选择;样本剔除标准
(2)多元线性回归与FWL定理;固定效应模型;OLS与FE选择;联合固定效应与时间趋势项
(3)统计显著性与经济显著性;回归系数过大或过小
(4)遗漏变量偏误方向:低估还是高估
(二)机制分析:中介、调节、分组一网打尽
(1)中介效应专题:两步法与三步法;中英文参考文献支撑与话术表达;相关的辅助检验(Bootstrap法与Sobel检验)
(2)调节效应专题:含交互项的调节模型(含变量中心化逻辑);如何将交互项表述转化为机制表述;单独项的解释问题
(3)分组效应专题:分组的标准确定;组间系数差异检验
(4)其他机制检验方法:打破规矩,追求本质
(5)经典进一步分析方法解读:XY细分;探索相似的Y;经典的进一步分析变量选择
(三)AI辅助应用:机制结果智能解读
专题三、Stata稳健性检验大全:含几十种方法,一次学个爽
(一)重点1:工具变量法(IV)与Stata实操
1.IV核心原理与检验
(1)识别条件:相关性(Wald估计、弱工具变量检验)与外生性的理论边界
(2)工具来源与异质性:地理、制度、历史等外生变异来源;异质性工具(LATE框架)
(3)主题工具变量:数字经济相关工具变量;环境经济相关工具变量;教育经济学相关工具变量;交通主题相关工具变量
2.实战案例1:数字经济相关工具变量的运用
参考文献:曹希广,邓敏.电子商务政策与企业家创业精神[J/OL].世界经济,2024,(04):31-64
(二)重点2:回归与匹配方法(PSM/熵平衡)
1.PSM的实操流程(选择协变量和匹配方法、估计倾向得分、平衡性检验与共同支撑域)
2. 混合匹配与逐年匹配;
3. 熵平衡匹配
4.实战案例2:逐年匹配与熵平衡匹配
参考文献:王刚刚,谢富纪,贾友.R&D补贴政策激励机制的重新审视——基于外部融资激励机制的考察[J].中国工业经济,2017(02):60-78.
(三)其他稳健性检验方法
1. Heckmam两步法(样本选择模型与处理效应模型)
2.敏感性分析方法(Altonji方法;oster方法)
3. 非线性模型(泊松与负二项、logit与probit、tobit、ppmlhdfe)
4. 安慰剂检验
5. 聚类调整
6. 差分模型
7. 联合固定效应模型
8. 核心变量度量方式变换
9. 排除替代性解释
10. 缓解反向因果
11. Granger因果检验
12. 增加控制变量
13. 剔除样本
专题四、Stata因果推断:准自然实验思路
(一)双重差分法及其拓展
1. 原理解读与平行趋势检验(图形观察法与事件研究法);控制变量选择与溢出效应检验;人为控制组选择与剂量效应;预期效应检验与安慰剂检验;排除其他政策干扰与组间时间趋势问题
2.多期双重差分法:多期DID纠偏;培根分解:twowayfeweights方法;组别-时期平均处理效应相关方法;插补估计量相关方法;堆叠估计量相关方法;合成双重差分法
3.三重差分法
4.实战案例3:绿色信贷政策对企业技术创新的影响;
参考文献:陆菁,鄢云,王韬璇.绿色信贷政策的微观效应研究——基于技术创新与资源再配置的视角[J].中国工业经济,2021,(01):174-192.
5.实战案例4:多期DID偏误及其解决
参考文献:袁礼,龚钰涵.专利质押融资对创业活跃度的影响[J].数量经济技术经济研究,2023,40(11):202-224.
(二)断点回归设计(RDD)
1.精准断点回归设计(因果图视角、断点回归步骤)
2.模糊断点回归设计
3、内生分组与断点操纵
4、弯折回归设计
5.断点回归步骤(检验前提条件;估计;稳健性检验)
6.实战案例5:养老金对农村居民医疗负担的影响;
参考文献:马超,李植乐,孙转兰,等.养老金对缓解农村居民医疗负担的作用——为何补贴收入的效果好于补贴医保[J].中国工业经济,2021,(04):43-61.
(三)合成控制法
1.理论与操作:合成控制法的原理、权重估计、置换检验;
2.实战案例6:房产税对产业转移的影响
参考文献:刘友金,曾小明.房产税对产业转移的影响:来自重庆和上海的经验证据[J].中国工业经济,2018(11):98-116.
专题五、双重机器学习DDML与Stata实操
(一)双重机器学习DML基本框架及优势(Chernozhukov et al., 2018)
(1)核心思路:Neyman正交化与交叉拟合
(2)高维数据下的变量选择与估计;非线性关系建模;缓解机器学习估计中存在的“正则偏误”
(二)DDML的stata实现
(三)DID原理及其与DML的区别,何时用DID何时用DML?
(四)DDML的稳健性检验:更改机器学习方法(rf nnet ridgecv gradboost svm lassocv);更换样本份额比例;引入控制变量二次项等
(五)实战案例7:《数量经济技术经济研究》DDML方法复现
(1)数字经济相关工具变量的运用
参考文献:Pedro H.C. Sant’Anna, Jun Zhao,Doubly robust difference-in-differences estimators,Journal of Econometrics,Volume 219, Issue 1,2020,Pages 101-122,ISSN 0304-4076,2020.06.003.
(2)核心方法复现:
参考文献:张涛,李均超.网络基础设施、包容性绿色增长与地区差距——基于双重机器学习的因果推断[J].数量经济技术经济研究,2023,40(04):113-135.
专题六、前沿实证论文步骤解析
基于已发表论文从选题、数据处理到投稿发表过程梳理
1.中文期刊发表经验谈
2.外文文献发表经验谈
3.中文期刊梳理
4.外文期刊梳理
5.选题经验谈
6.写作经验谈-合理的实证论文架构
7.返修经验谈
4. 课程报名
课程价格
早鸟拼团购买:(10.10前支付)568元;
可按照实际支付金额开具电子发票
价格包含:直播课程+录播回放+课程资料+课程答疑(仅开课前支付能进答疑群)
如有以下优惠,购买前找“学知老师”领取优惠券。
优惠一
扫码成为超级课程会员
4. 课程售后
课程发票/课程通知
联系“学知老师”可领取课程开课通知、结课证书、可报销发票等证明。
课程退款
在课程未开始前,接受“7天无理由退款”,由于是知识付费,一旦直播课开始后,不接受退款。退款请联系“学知老师”。

