大数跨境
0
0

科研利器:如何利用海量文本数据进行实证研究习

科研利器:如何利用海量文本数据进行实证研究习 数据皮皮侠
2022-10-04
0
导读:可复用文本分析代码块&全样本案例数据


►►►

课程背景

随着大数据时代的到来,非结构化、高频、多源、多模态数据已经成为经管实证数据的趋势,为“数据驱动”的经管科学研究创造了新的发展契机。国内外顶刊发表的论文指标来源日渐丰富,掌握高效的数据处理方法,是研究者必备的基础技能,为解决研究者在处理数据时常遇到的问题及更好的匹配优质期刊的要求,特开发本课程:


1.1课程目标:

掌握Python数据清洗&处理文本等高阶方法


1.2课程特点:

易理解:以管理经济金融实证计量为导向,以文科生易懂方式讲解,12个实战案例

可复制:提供可复代码块&全样本案例数据(含国务院政府工作报告、省级政府工作报告、年报管理层讨论与分析部分、央行货币政策执行报告、人民日报留言板数据、高管简历120万条)

长期回放:腾讯会议直播,录播上线“PPdata Academy”供长期查看(至少2月)

全程答疑:6小时Python基础课(价值499)+答疑群+报名后老师全程答疑


模块一:软件配置&基础夯实

时间:10月22日 09:00-12:00

就学员软件安装、基础使用问题进行课前答疑


模块二:词频统计&可视化图

时间:10月22日 14:30-17:30

1、文本分析应用简介

2、中文英文分词及关键词提取

3、中英文词频统计&词云图


Case1:年报电话会议英文文本词频统计

Case2:1979-2021国务院政府工作报告词性标注、词频统计

(中文期刊关注的政府工作报告所有领域,含环保、安全、文教、老龄事业、社会、科技、人才)

Case3:2021年国务院政府工作报告词云可视化

Case4:注意力构建&热力图——2001-2021年省级政府工作报告

(以构建完整全面的环保词频为例,适用任何词频)


模块三:文本量化&指标构建

时间:10月23日 09:00-12:00

Case1 主题提取:基于文本数据提取大量个人特征数据

Case2 词频:2010-2020上市公司年报数字化词频统计(管理层讨论分析部分)

Case3 语调:2003-2021央行货币政策执行报告文本情绪

Case4 相似度:2010-2020年报MD&A披露信息含量计算



模块四:文本机器学习&网络分析

时间:10月23日 14:30-17:30

1、机器学习与政策文本分析

2、文本数据量化:one-hot编码、词典法、TF-IDF、词嵌入技术、共现矩阵


Case1:词嵌入技术“五位一体”建设注意力测算(政、经、文、社、生)

Case2:政策文本分类算法

Case3:基于LDA模型的政策文本挖掘

Case4:文本网络分析:关键词&主题共现网络


参考文献

[1]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.

[2]吴非,胡慧芷,林慧妍,任晓怡.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10.

[3]马长峰, 陈志娟, 张顺明. 基于文本大数据分析的会计和金融研究综述[J]. 管理科学学报, 2020, 23(9):12.

[4]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论,2021.

[5]曾庆生. 年报语调与内部人交易:"表里如一"还是"口是心非"?[J]. 管理世界, 2018, 34(9):18.

[6]梁日新, 李英. 年报文本语调与审计费用——来自我国A股上市公司的经验数据[J]. 审计研究, 2021(5):11.

[7]孟庆斌,杨俊华,鲁冰.管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017(12): 132-150.

[8]申伟宁, 柴泽阳, 张韩模. 异质性生态环境注意力与环境治理绩效--基于京津冀《政府工作报告》视角[J].软科学,2020,34(9):7.

[9]陈诗一,陈登科.雾霾污染、政府治理与经济高质量发展[J].经济研究,2018,53(02):20-34.

[10]姜富伟,胡逸驰,黄楠.央行货币政策报告文本信息、宏观经济与股票市场[J].金融研究,2021,(06). 

[11]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, The Review of Financial Studies,2020

[12Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics

[10]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing 84, no. 1 (2020): 1-25.

[11]Mikolov T ,  Chen K ,  Corrado G , et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.


►►►

课程组织

课程时间

2022年1022-23

直播完即上传录播PPdata Academy”供长期回放(至少2月)


课程缴费

1)课程价格

按照链接价格为准,越早购买越划算(后续会涨价),可按照实际支付金额开具电子发票。并有如下优惠,购买前找“神奇女侠”领取优惠码。


优惠一:早鸟价399(原价699),越早越划算


优惠二:会员/老学员/转发8折(可与团购优惠叠加)

——数据皮皮侠数据会员(购买地址http://www.ppmandata.cn/)直接享受8折

——之前购买过课程的老学员,直接8折

——非会员转发本推送到朋友圈2小时(不屏蔽),或转发到100人以上年级群并留言“推荐一门非常有价值的文本分析课


同时可申请称为“PPdata Academy推广员”

赚取高额佣金

 


优惠三:贫困助学,对于家庭困难的学子,添加客服微信,提供学校困难认定结果,在前面所有优惠基础上再享受7折


(2)扫码支付

注:回放只能由购买微信查看。

为提高学术交流效率,本次课程采取实名制报名,购买后需要给客服提供单位+姓名+校园卡/员工卡信息。

扫码支付

 


售后服务

(1)课程发票:联系“PPdata财务”(扫码添加)开具,可开具明目为“技术咨询费”、“教育咨询费”、“会议费”等。


(2)课程通知:开课前会提供加盖公章的课程通知扫描件,若有需要特殊模板,请联系“神奇女侠”(微信号ppman008)提供电子版文件进行开具。


(3)课程答疑:本课程购买后请添加“神奇女侠”(微信号ppman008),提供单位,姓名,校园卡/员工卡等身份证明后邀请您进入课程答疑群。关于项目与报名如有问题,也请咨询ppman008。


(4)课程退款:在课程未开始前,接受“7天无理由退款”,由于是知识付费,一旦直播课开始后,不接受退款;对于没有Python语言基础的同学,赠送6小时Python语言基础录播课程,一旦开通不接受退款。退款请联系“神奇女侠”(微信号ppman008)。



END

更多资源请关注公众号获取

↓  ↓  ↓  ↓  ↓  ↓


【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读615
粉丝0
内容2.1k