大数跨境
0
0

名师直播课免费学(今天下午):词频统计-掌握Python数据清洗&处理文本等高阶方法

名师直播课免费学(今天下午):词频统计-掌握Python数据清洗&处理文本等高阶方法 数据皮皮侠
2023-07-03
0
直播预告

今天 17:00 扫码参加

提前加群,获取直播资料



参与方式


直播内容

分享博士:黎逍遥老师

1. 英文词频统计入门:以年报电话会议为例

2. 国务院政府工作报告词频统计


直播老师:黎逍遥


黎逍遥-研究计算社会科学,四川大学DISSE研究助理,多项重大社科项目数据处理经历。

扫码预约直播


暑期课程:文本分析与实证研究

《文本分析与实证研究》(点击跳转详细信息)课程内容

一、Python基础 (3小时)

01、Python语言:语法、注解、保留字、变量

02、数据类型——数字&字符串(变量类型设置)

03、数据类型——数组(列表、元组、集合、字典)

04、条件语句、循环语句和异常处理

05、强大的匿名函数lambda 函数

06、高效迭代-推导式

07、Python数据科学:包、模块、类、函数

08、Pandas、Numpy介绍

09、重复值、缺失值、“0”值、异常值处理

10、数据表记录(行)与字段(列)处理

11、多重索引、排序、重置数据(stack、melt)

12、分组计算(groupby、transform)

13、计量常用统计量(分组均值、移动平均值、方差、标准差)

14、表格批操作(apply)

15、表格文本数据处理、匹配(extractal)

16、数据拼接、合并(匹配)


二、文本数据获取(3小时)

1、Python爬虫基础概要

3、深交所上市公司报告爬取

4、证监会官网公开报告爬取

5、上市公司企业社会责任报告爬取

6、PDF文本解析、图片识别文字

7、大量Word/txt文件自动化生成Excel面板数据


三、文本数据处理(3小时)

1、中文英文分词及词频统计原理及Python案例

Case1:基于Excel文件计算上市公司年报MD&A数字化词频2010-2020

2、主题抽取原理及Python案例

Case2:基于简历大数据提取实证指标

3、句频统计原理及Python案例

Case3:多个关键词共现句子识别统计(基于政府工作报告)

4、文本相似性原理及Python案例

Case4:上市公司年报相似度

5、文本情绪分析原理及Python案例

Case5:上市公司年报文本语调

6、词嵌入模型原理及Python案例

Case6:基于上市公司年报构建经管实证指标


四、文本分析+Stata实证(3小时)

1、文本分析经管实证应用概述

2、Stata实证简要介绍

3、文本分析实证论文复刻(Python+Stata):

复刻1:胡楠, 薛付婧, 王昊楠. 管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J]. 管理世界, 2021, 37(5):18.

复刻2:聂兴凯,王稳华,裴璇.企业数字化转型会影响会计信息可比性吗.[J]会计研究.会计研究. 2022(05)



【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读615
粉丝0
内容2.1k