

最后一天！Stata因果机器学习|双重机器学习

数据皮皮侠

2025-08-08

导言

机器学习能通过样本直接匹配以及提升倾向得分估计准确度来实现样本的精准匹配,使研究样本更具备"随机化"实验的特征,此外,机器学习方法能够利用复杂关系建模、交叉验证以及正则化等方法来提升样本反事实预测的准确性（钱浩祺，龚嫣然，吴力波，2021）。

本课程系面向经管人文社科研究人员的前沿方法课程，系统讲解机器学习与因果推断的交叉应用，重点聚焦双重机器学习（Double/Debiased Machine Learning, DML）国际前沿方法及其在中文顶刊科研应用，助力学者科研发表竞争力。课程结合AI辅助研究的技术路径以及国际规范的因果推断分析框架，从Stata编程→因果推断→机器学习→反事实框架→双重机器学习→顶刊复现（《系统工程理论与实践》《科研管理》《数量经济技术经济研究》等），手把手实现科研实操。

1. 课程概览

课程名称：Stata机器学习与因果推断

课程老师：Draven老师

课程时间：2025年08月09日（上午9:00-12:00，下午14:30-17:30）

授课方式：腾讯会议线上直播

报名方式：

扫码报名

课程特色：

（1）授人以渔：因果推断机器学习核心理论→因果机器学习实操→顶刊复现。

（2）可复用代码块：可复用Stata代码块及案例数据。

（3）丰富案例实操：Journal of Econometrics、The Stata Journal、《系统工程理论与实践》《科研管理》《数量经济技术经济研究》等4个论文案例精讲，3个顶刊方法复现案例。

2. 老师介绍

Draven老师，毕业于西南财经大学，曾任职国内某大型公共调查数据库高级数据工程师，从事大数据实证研究4年，擅长Stata、Python、SQL等语言，擅长基于CHARLS、CLHLS、CFPS、HRS等公共数据库的数据分析。

3. 课程大纲

第一讲：因果推断与机器学习快速入门

（一）核心理论

1.因果推断关键问题：混杂因素、反事实框架（潜在结果模型）

2.机器学习优势：高维变量处理、交叉验证、正则化（钱浩祺等，2021）

3.机器学习经典算法介绍：决策树（chaid），随机森林（chaidforest,rforest）

,BP神经网络(brain), lasso回归(lasso),支持向量机（svmachines）

（二）Stata准备与特征选取示例

数据格式规范：面板数据与横截面数据预处理

方法复现:

易志高, 刘逸飞, 潘臻. CEO特征与企业数字化转型.系统工程理论与实践, 2025, 45(5): 1462-1484.https://doi.org/10.12011/SETP2023-2067

第二讲：机器学习与反事实框架

1.机器学习与合成控制法

（1）经典合成控制法原理、Stata实现与缺陷（Abadie et al., 2010）

Stata 命令：synth 基础用法

（2）机器学习合成控制方法（分位数控制法）：应对前提假设不成立的情景

2.机器学习与倾向得分匹配

（1）倾向得分匹配原理及Stata实现（Rosenbaum & Rubin, 1983)

（2）基于逻辑回归、随机森林、神经网络的倾向得分方法（Cannas &Arpino, 2019）

参考文献：

[1]Chen, Q., Xiao, Z., & Yao, Q. (2024). Quantile control via random forest. Journal of Econometrics, 105789.

[2]Cannas M, Arpino B. A comparison of machine learning algorithms and covariate balance measures for propensity score matching and weighting. Biometrical Journal. 2019; 61: 1049–1072. https://doi.org/10.1002/bimj.201800132

第三讲双重机器学习适用场景与操作规范

1.双重机器学习DML基本框架及优势（Chernozhukov et al., 2018）

（1）核心思路：Neyman正交化与交叉拟合

（2）高维数据下的变量选择与估计；非线性关系建模；缓解机器学习估计中存在的“正则偏误”

2.DID原理及其与DML的区别，何时用DID何时用DML？

3.双重机器学习Stata实现

参考文献：

Ahrens, Achim, et al. "ddml: Double/debiased machine learning in Stata." The Stata Journal 24.1 (2024): 3-45.

4.双重机器学习的稳健性检验及Stata实现

参考文献：

Pedro H.C. Sant’Anna, Jun Zhao,Doubly robust difference-in-differences estimators,Journal of Econometrics,Volume 219, Issue 1,2020,Pages 101-122,ISSN 0304-4076,https://doi.org/

10.1016/j.jeconom.2020.06.003.

第四讲机器学习因果推断高级应用

1.《数量经济技术经济研究》DML方法复现

张涛,李均超.网络基础设施、包容性绿色增长与地区差距——基于双重机器学习的因果推断[J].数量经济技术经济研究,2023,40(04):113-135.

2.《科研管理》双重机器学习方法复现

程中华,韩乐乐,李廉水.数据交易对企业数字创新的影响研究[J/OL].科研管理,1-16[2025-06-18].http://kns.cnki.net/kcms/detail/11.1567.G3.

20241231.1212.008.html.

3.实证研究开放问题交流Q&A环节

4. 课程报名