为帮助大家搞定使用文本等结构化数据做研究,现特开放两门组合课程,价值1265元,限时返场,只需666元,拼团仅需399元,若转发本推送到朋友圈并集赞30可获得8折优惠。
《Stata实证论文基础》主要知识点:
Stata零基础、常用指令、OLS、merge命令、字符型数据、缺失值、极端值、固定效应、随机效应、虚拟变量、中介效应、稳健性检验、内生性、DID模型、PSM-DID、论文复刻
《Python文本分析&机器学习》主要知识点:
数据清洗、文本分析、中英文词频、个人特征、年报数字化、央行货币政策、年报MD&A、机器学习、one-hot编码、词典法、TF-IDF、词嵌入技术、共现矩阵、注意力测算
课程购买

2、课程退款
由于是知识付费,一旦开通,不接受退款,购买前请仔细咨询客服(微信号ppman008)。
课程内容
一、《Stata实证论文基础》课程内容
1.Stata零基础入门
1.1 Stata操作界面介绍
1.2 数据导入及存储:手动导入数据、命令导入数据、数据存储
1.3 Stata常用指令介绍:变量重命名、删除变量、保留变量、生成变量(分类变量、滞后期)、变量排序、替换变量、条件语句等
1.4 OLS回归原理及应用:回归结果讲解,通过OLS模型案例直观上对如何做一篇实证论文有一个系统的感知
1.5 外部命令安装及结果导出到word
2.Stata数据匹配
2.1 数据横向匹配:merge命令的详细讲解和应用
2.2 数据纵向匹配:append
2.3 循环语句的应用
2.4 字符型数据处理:关键词的提取和替换,字符段的筛选等
2.5 数值型数据处理:四则运算、常用的数据变换、字符和数值的相互转化、分位数
2.6 缺失值的处理
2.7 极端值处理
3.面板数据模型
3.1 面板数据介绍
3.2 固定效应模型(FE)和随机效应模型(RE):定义面板、模型原理、模型比较
3.3 固定效应(时间、个体、行业)标准误选择等问题
3.4 面板数据回归案例
4.扩展研究及稳健性检验
4.1 分组回归及虚拟变量的应用
4.2 交互项的使用
4.3 中介效应
4.4 调节效应
4.5 多种稳健性检验方法
5.内生性专题
5.1 内生性介绍和类型
5.2 内生性解决(Heckman两步法、工具变量法IV估计\系统GMM)
6.DID专题
6.1 DID模型原理及介绍
6.2 DID应用案例
6.3 多期DID
6.4 PSM-DID
7.显著性调整专题
7.1 解决论文中的不显著问题
7.2 论文写作重点及技巧梳理
8.实证论文复刻
如何从搜集数据到完成一篇论文
二、《Python文本分析&机器学习》课程内容
模块一:Python基础提要(3h)
模块二:词频统计&可视化图(3h)
1、文本分析应用简介
2、中文英文分词及关键词提取
3、中英文词频统计&词云图
Case1:年报电话会议英文文本词频统计
Case2:1979-2021国务院政府工作报告词性标注、词频统计
(中文期刊关注的政府工作报告所有领域,含环保、安全、文教、老龄事业、社会、科技、人才)
Case3:2021年国务院政府工作报告词云可视化
Case4:注意力构建&热力图——2001-2021年省级政府工作报告
(以构建完整全面的环保词频为例,适用任何词频)
模块三:文本量化&指标构建(3h)
Case1 主题提取:基于文本数据提取大量个人特征数据
Case2 词频:2010-2020上市公司年报数字化词频统计(管理层讨论分析部分)
Case3 语调:2003-2021央行货币政策执行报告文本情绪
Case4 相似度:2010-2020年报MD&A披露信息含量计算
模块四:文本机器学习&网络分析(3h)
1、机器学习与政策文本分析
2、文本数据量化:one-hot编码、词典法、TF-IDF、词嵌入技术、共现矩阵
Case1:词嵌入技术“五位一体”建设注意力测算(政、经、文、社、生)
Case2:政策文本分类算法
Case3:基于LDA模型的政策文本挖掘
Case4:文本网络分析:关键词&主题共现网络
参考文献:
[1]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.
[2]吴非,胡慧芷,林慧妍,任晓怡.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10.
[3]马长峰, 陈志娟, 张顺明. 基于文本大数据分析的会计和金融研究综述[J]. 管理科学学报, 2020, 23(9):12.
[4]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论,2021.
[5]曾庆生. 年报语调与内部人交易:"表里如一"还是"口是心非"?[J]. 管理世界, 2018, 34(9):18.
[6]梁日新, 李英. 年报文本语调与审计费用——来自我国A股上市公司的经验数据[J]. 审计研究, 2021(5):11.
[7]孟庆斌,杨俊华,鲁冰.管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017(12): 132-150.
[8]申伟宁, 柴泽阳, 张韩模. 异质性生态环境注意力与环境治理绩效--基于京津冀《政府工作报告》视角[J].软科学,2020,34(9):7.
[9]陈诗一,陈登科.雾霾污染、政府治理与经济高质量发展[J].经济研究,2018,53(02):20-34.
[10]姜富伟,胡逸驰,黄楠.央行货币政策报告文本信息、宏观经济与股票市场[J].金融研究,2021,(06).
[11]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, The Review of Financial Studies,2020
[12Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
[10]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing 84, no. 1 (2020): 1-25.
[11]Mikolov T , Chen K , Corrado G , et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.


