今天 17:00 扫码参加
提前加群,获取直播资料

分享博士:黎逍遥老师
1. 英文词频统计入门:以年报电话会议为例
2. 国务院政府工作报告词频统计
黎逍遥-研究计算社会科学,四川大学DISSE研究助理,多项重大社科项目数据处理经历。

一、Python基础 (3小时)
01、Python语言:语法、注解、保留字、变量
02、数据类型——数字&字符串(变量类型设置)
03、数据类型——数组(列表、元组、集合、字典)
04、条件语句、循环语句和异常处理
05、强大的匿名函数lambda 函数
06、高效迭代-推导式
07、Python数据科学:包、模块、类、函数
08、Pandas、Numpy介绍
09、重复值、缺失值、“0”值、异常值处理
10、数据表记录(行)与字段(列)处理
11、多重索引、排序、重置数据(stack、melt)
12、分组计算(groupby、transform)
13、计量常用统计量(分组均值、移动平均值、方差、标准差)
14、表格批操作(apply)
15、表格文本数据处理、匹配(extractal)
16、数据拼接、合并(匹配)
二、文本数据获取(3小时)
1、Python爬虫基础概要
3、深交所上市公司报告爬取
4、证监会官网公开报告爬取
5、上市公司企业社会责任报告爬取
6、PDF文本解析、图片识别文字
7、大量Word/txt文件自动化生成Excel面板数据
三、文本数据处理(3小时)
1、中文英文分词及词频统计原理及Python案例
Case1:基于Excel文件计算上市公司年报MD&A数字化词频2010-2020
2、主题抽取原理及Python案例
Case2:基于简历大数据提取实证指标
3、句频统计原理及Python案例
Case3:多个关键词共现句子识别统计(基于政府工作报告)
4、文本相似性原理及Python案例
Case4:上市公司年报相似度
5、文本情绪分析原理及Python案例
Case5:上市公司年报文本语调
6、词嵌入模型原理及Python案例
Case6:基于上市公司年报构建经管实证指标
四、文本分析+Stata实证(3小时)
1、文本分析经管实证应用概述
2、Stata实证简要介绍
3、文本分析实证论文复刻(Python+Stata):
复刻1:胡楠, 薛付婧, 王昊楠. 管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J]. 管理世界, 2021, 37(5):18.
复刻2:聂兴凯,王稳华,裴璇.企业数字化转型会影响会计信息可比性吗.[J]会计研究.会计研究. 2022(05)


