随着大数据时代的到来,非结构化、高频、多源、多模态数据已经成为经管实证数据的趋势,为“数据驱动”的经管科学研究创造了新的发展契机。国内外顶刊发表的论文指标来源日渐丰富,掌握计算社会科学,是研究者必备的基础技能。我们开放两门录播课程,价值1554元,现限时返场,只需666元,拼团仅需499元,若转发本推送到朋友圈并积攒30可获得8折优惠。
文本分析课程:文本解析、中英文分词、关键词提取、词性标注、词云图、词频统计、句频统计、文本相似性、文本情感分析、文本向量化、文本信息含量、关键词共现网络、主题模型(LDA)、文本分类算法、Word2vec词嵌入模型。
网络分析课程:可视化、网络密度、聚类系数、网络直径、度分布;社区分析(边介数中心性算法、层次贪婪算法);结构洞(有效规模、限制度、效率)、入/出度中心性、入/出接近中心性、中介中心性、特征向量中心性、局部聚类系数、两点间最短路距离、离心度、自我网络复杂性、异质性
课程付款
1、扫码付款:两门课程超级优惠

2、课程退款
由于是知识付费,一旦开通,不接受退款,购买前请仔细咨询客服(微信号ppman008)。

一、《python文本分析&机器学习》课程内容
模块一:软件配置&基础夯实 3小时
就学员软件安装、基础使用问题进行课前答疑
模块二:词频统计&可视化图 3小时
1、文本分析应用简介
2、中文英文分词及关键词提取
3、中英文词频统计&词云图
Case1:年报电话会议英文文本词频统计
Case2:1979-2021国务院政府工作报告词性标注、词频统计
(中文期刊关注的政府工作报告所有领域,含环保、安全、文教、老龄事业、社会、科技、人才)
Case3:2021年国务院政府工作报告词云可视化
Case4:注意力构建&热力图——2001-2021年省级政府工作报告
(以构建完整全面的环保词频为例,适用任何词频)
模块三:文本量化&指标构建 3小时
Case1 主题提取:基于文本数据提取大量个人特征数据
Case2 词频:2010-2020上市公司年报数字化词频统计(管理层讨论分析部分)
Case3语调:2003-2021央行货币政策执行报告文本情绪
Case4 相似度:2010-2020年报MD&A披露信息含量计算
模块四:文本机器学习&网络分析 3小时
1、机器学习与政策文本分析
2、文本数据量化:one-hot编码、词典法、TF-IDF、词嵌入技术、共现矩阵
Case1:词嵌入技术“五位一体”建设注意力测算(政、经、文、社、生)
Case2:政策文本分类算法
Case3:基于LDA模型的政策文本挖掘
Case4:文本网络分析:关键词&主题共现网络
参考文献
[1]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.
[2]吴非,胡慧芷,林慧妍,任晓怡.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10.
[3]马长峰, 陈志娟, 张顺明. 基于文本大数据分析的会计和金融研究综述[J]. 管理科学学报, 2020, 23(9):12.
[4]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论,2021.
[5]曾庆生. 年报语调与内部人交易:"表里如一"还是"口是心非"?[J]. 管理世界, 2018, 34(9):18.
[6]梁日新, 李英. 年报文本语调与审计费用——来自我国A股上市公司的经验数据[J]. 审计研究, 2021(5):11.
[7]孟庆斌,杨俊华,鲁冰.管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017(12): 132-150.
[8]申伟宁, 柴泽阳, 张韩模. 异质性生态环境注意力与环境治理绩效--基于京津冀《政府工作报告》视角[J].软科学,2020,34(9):7.
[9]陈诗一,陈登科.雾霾污染、政府治理与经济高质量发展[J].经济研究,2018,53(02):20-34.
[10]姜富伟,胡逸驰,黄楠.央行货币政策报告文本信息、宏观经济与股票市场[J].金融研究,2021,(06).
[11]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning,The Review of Financial Studies,2020
[12Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J].Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
[10]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight."Journal of Marketing 84, no. 1 (2020): 1-25.
[11]Mikolov T , Chen K , Corrado G , et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.
二、《社会网络与实证研究》
模块一、网络理论基础
1.网络理论与网络特征:稀疏性、同质性、传递性、聚集性、度异质性、小世界现象
2.顶刊网络理论的实证研究
3.Python网络基础简介
3.1网络数据表示:矩阵与边列表
3.2网络数据可视化
4.网络结构特征Python计算
4.1网络整体:密度、直径、平均路径长度、度分布、平均聚类系数
4.2网络模体:模块度、社区划分
模块二、Python网络建模
1.网络实证指标与Python计算
1.1 常用指标:
结构洞(有效规模、限制度、效率)、入/出度中心性、入/出接近中心性、中介中心性、特征向量中心性、局部聚类系数
1.2 拓展指标:
两点间最短路距离、离心度、自我网络复杂性、异质性
2.案例:网络构建-节点指标-合并为面板数据-导出全过程
Case1:机构科研合作网络:基于中文顶刊论文
Case2:城市高铁网络与上市公司治理:基于原始数据构建
Case3:董事网络与公司金融研究:基于原始数据构建

