文本数据与实证研究
课程背景
随着大数据时代的到来,非结构化、高频、多源、多模态数据已经成为经管实证数据的趋势,为“数据驱动”的经管科学研究创造了新的发展契机。国内外顶刊发表的论文指标来源日渐丰富,掌握高效的数据处理方法,是研究者必备的基础技能,为解决研究者在处理数据时常遇到的问题及更好的匹配优质期刊的要求,特开发本课程:
1.1课程目标:掌握Python数据清洗&处理文本服务实证研究的高阶方法
1.2课程特点:
易理解:以管理经济金融实证研究为导向,12个实战案例
可复制:提供可复用代码块&全样本案例数据(含国务院政府工作报告、省级政府工作报告、年报管理层讨论与分析部分、央行货币政策执行报告、人民日报留言板数据、高管简历120万条)
长期回放:腾讯会议直播,录播上线“PPdata Academy”供长期查看(至少4月)
全程答疑:赠6小时Python基础课(价值499)+答疑群+报名后老师全程答疑
Python基础答疑:02月08-10日
课程内容
模块一:文本数据获取(02月11日 09:00-12:00)
1、基于文本数据经管实证研究概述
2、Python语法基础:数据类型、逻辑语句
3、深交所上市公司报告爬取
4、证监会官网公开报告爬取
5、PDF文本解析、图片识别文字
6、大量Word/txt文件自动化生成Excel面板数据
模块二:文本处理基础(02月11日 14:30-17:30)
1、文档给定关键词主题抽取
2、文档部分信息定位与提取
3、文本句子切分
4、中文英文分词及关键词提取
5、文本指标Python计算基础
6、关键词词云图词云图
7、Case1:1979-2021国务院政府工作报告词性标注、词频统计、词云
(中文期刊关注的政府工作报告所有领域,含环保、安全、文教、老龄事业、社会、科技、人才)
模块三:文本指标案例(02月12日 09:00-12:00)
1、主题抽取
- Case1:基于文本大数据提取大量实证指标(以120万高管简历数据为例)
2、词频统计:
- Case2:基于大量Word文档构建省政府工作报告注意力2001-2021(以构建完整全面的环保词频为例,适用任何词频)
- Case3:基于Excel文件计算上市公司年报MD&A数字化词频2010-2020
3、句频统计
- Case4:多个关键词共现句子识别统计(基于政府工作报告)
4、文本相似性
- Case5:国务院政府工作报告文本相似度1979-2021
5、文本情感分析
- Case6:央行货币政策执行报告文本语调2003-2021
模块四:机器学习&共现网络(02月12日 14:30-17:30)
1、机器学习简介
2、词向量:one-hot编码、词典法、TF-IDF、词嵌入技术
3、Case1:年报MD&A披露信息含量2010-2020
4、Case2:Word2vec“五位一体”建设注意力测算(政、经、文、社、生)
5、Case3:分类算法与实证指标构建
6、Case4:基于LDA模型管理会计指标测度
7、Case5:主题共现网络构建与实证指标
8、Case6:机器学习识别图片构建实证指标
参考文献:
[1]吴非,胡慧芷,林慧妍,任晓怡.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10.
[2]马长峰, 陈志娟, 张顺明. 基于文本大数据分析的会计和金融研究综述[J]. 管理科学学报, 2020, 23(9):12.
[3]孟庆斌,杨俊华,鲁冰.管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017(12): 132-150.
[4]陈诗一,陈登科.雾霾污染、政府治理与经济高质量发展[J].经济研究,2018,53(02):20-34.
[5]姜富伟,胡逸驰,黄楠.央行货币政策报告文本信息、宏观经济与股票市场[J].金融研究,2021,(06).
[6]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, The Review of Financial Studies,2020
[7]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
[8]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing 84, no. 1 (2020): 1-25.
[9]Bellstam G , Bhagat S , Cookson J A . A Text-Based Analysis of Corporate Innovation[J]. Management Science, 2021, 67(7):-.
[10]Obaid, K., & Pukthuanthong, K. (2022). A picture is worth a thousand words: Measuring investor sentiment by combining machine learning and photos from news. Journal of Financial Economics, 144, 273-297.
[11]Jaeho Choi & Anoop Menon & Haris Tabakovic, 2021. "Using machine learning to revisit the diversification–performance relationship," Strategic Management Journal, Wiley Blackwell, vol. 42(9), pages 1632-1661, September.
课程组织
3.1课程时间
2023年02月11-12日,直播完即上传录播“PPdata Academy”供长期回放(至少4月)
3.2 课程缴费
(1)课程价格
按照链接价格为准,可按照实际支付金额开具电子发票。越早购买越划算,并有如下优惠,购买前找“神奇女侠”领取优惠码。
优惠一:会员/老学员优惠(只能选择一个)
—— PPdata实证SVIP享受4折
——数据皮皮侠数据会员
(购买地址http://www.ppmandata.cn/)直接享受8折
——之前购买过课程的老学员,直接8折
优惠二:集赞优惠,转发本推送到朋友圈2小时(不屏蔽)积赞20;或转发到100人以上年级群,并留言“很棒的政策评估资料”,享9折
优惠三:贫困助学,对于家庭困难的学子,添加客服微信,提供学校困难认定结果,在前面所有优惠基础上再享受9折。
(2)扫码支付
为提高学术交流效率,本次课程采取实名制报名,购买后需要给客服提供单位+姓名+校园卡/员工卡信息。
3.3 课程售后
(1)课程发票:联系“PPdata财务”(扫码添加)开具,可开具明目为“技术咨询费”、“教育咨询费”、“会议费”等。
(2)课程通知:开课前会提供加盖公章的课程通知扫描件,若有需要特殊模板,请联系“神奇女侠”(微信号ppman008)提供电子版文件进行开具。
(3)课程答疑:本课程购买后请添加“神奇女侠”(微信号ppman008),提供单位,姓名,校园卡/员工卡等身份证明后邀请您进入课程答疑群。关于项目与报名如有问题,也请咨询ppman008。
(4)课程退款:在课程未开始前,接受“7天无理由退款”,由于是知识付费,一旦直播课开始后,不接受退款。退款请联系“神奇女侠”(微信号ppman008)。


