随着大数据时代的到来,非结构化、高频、多源、多模态的文本数据已经成为社科类研究的重要素材,为“数据驱动”的社科研究创造了新的发展契机。国内外顶刊发表的论文指标来源日渐丰富,掌握高效的数据处理方法,是研究者必备的基础技能,为解决研究者在处理数据时常遇到的问题及更好的匹配优质期刊的要求,特开发本课程:
1.1 课程目标:掌握Python文本数据挖掘高阶的方法、文本挖掘类论文技巧
易理解:以社科研究为导向,13个实战案例,7篇论文导读
可复制:提供可复用代码块&案例数据(含省级政府工作报告等)
长期回放:腾讯会议直播,录播上线“PPdata Academy”供长期查看(至少4月)
全程答疑:赠6小时Python基础课(价值499)+答疑群
第一讲:社科学术研究中的文本分析
1.文本分析的相关概念
2.文本分析论文基本思路
3.Jupyter notebook快速入门
4.文本数据来源
第二讲:文本预处理技术
1. 论文概览(1)-文本分词技术
2. 中文分词-jieba库
3. 英文分词-nltk库
4. Case1:词云图谱绘制:以论文文本数据为例
8. Case2:2001-2021年省政府工作报告环保类词频统计及热力图绘制
5. 论文概览(2)-文本向量化技术
6. 词袋模型
7. TFIDF计算
第三讲:文本主题挖掘技术
1.主题模型简介及类型
2.论文概览(3)-LDA主题模型的基本思路及学术应用
3.LDA主题模型在文本挖掘中的应用流程
4.Case3:基于LDA模型的学科领域主题挖掘与解析
5.论文概览(4)-DTM动态主题模型的基本思路及学术应用
6.DTM动态主题模型在文本挖掘中的应用流程
7.Case4:基于DTM动态主题模型的学科领域主题挖掘与解析
8.论文概览(5)-ATM作者主题模型在文本挖掘中的应用方式
9.ATM作者主题模型在文本挖掘中的应用流程
10.Case5:基于ATM作者主题模型的学科领域主题挖掘与解析
第四讲:文本聚类与相似度测度技术
1.论文概览(6)-文本主题挖掘的内容延伸
2.基于主题模型的文本聚类实现
3.余弦相似度计算流程
4.Case6:主题热度趋势图绘制
5.Case7:主题演进桑基图绘制
6.Case8:基于内容的个性化推荐实现—以论文推荐为例
第五讲:文本情感分析技术
1.情感分析介绍
2.论文概览(7)-情感分析的基本思路及学术应用
3.基于词典法的情感分析技术—SnowNLP库
4.基于机器学习的情感分析技术-支持向量机(SVM)
5.Case9:基于情感分析的用户评论情绪识别
第六讲:文本语义分析技术
1.Word2vec词向量模型介绍及学术应用
2.Word2vec词向量训练过程
3.Case10:《红楼梦》Word2vec实现-人物关联测度
4.Case11:基于Word2vec与深度神经网络的文本分类
5.Doc2vec句向量模型介绍及学术应用
6.Doc2vec句向量训练过程
7.Case12:Doc2vec实现论文相似度测度
8.Case13:Doc2vec+LOF算法实现离群点检测
2023年07月15-16日,课程分4个半天,2.5小时讲解+0.5小时答疑,共计10小时。直播完即上传录播“PPdata Academy”供长期回放(至少4月)
宋凯,武汉大学管理学博士,擅长文本挖掘、知识挖掘,发表CSSCI、SSCI论文19篇,其中一作9篇,发表计算机软件著作权3件,科研成果和软著成果多与文本挖掘相关
按照链接价格为准,可按照实际支付金额开具电子发票。越早购买越划算,并有如下优惠,购买前找“神奇女侠”领取优惠码。
优惠一:皮皮侠会员/老学员优惠(只能选择一个)
—— 数据皮皮侠数据会员
(购买地址http://www.ppmandata.cn/)享受8折优惠
优惠三:实证会员尊享四折
PPdata实证SVIP享受4折购课价!!!(不与其他优惠叠加)
(2)扫码支付
为提高学术交流效率,本次课程采取实名制报名,购买后需要给客服提供单位+姓名+校园卡/员工卡信息。

(1)课程发票:联系“PPdata财务”(扫码添加)开具,可开具明目为“技术咨询费”、“教育咨询费”、“会议费”等。

(2)课程通知:开课前会提供加盖公章的课程通知扫描件,若有需要特殊模板,请联系“神奇女侠”(微信号ppman008)提供电子版文件进行开具。
(3)课程答疑:本课程购买后请添加“神奇女侠”(微信号ppman008),提供单位,姓名,校园卡/员工卡等身份证明后邀请您进入课程答疑群。关于项目与报名如有问题,也请咨询ppman008。
(4)课程退款:在课程未开始前,接受“7天无理由退款”,由于是知识付费,一旦直播课开始后,不接受退款。退款请联系“神奇女侠”(微信号ppman008)。


