导言
上市公司公告、政府政策报告、平台评论各类文本分析频繁登上国内外《管理世界》《经济研究》、FT50等顶刊,文本分析具有巨大价值。文本分析随技术不断迭代,从文本量化到自然语言处理,如今的大语言模型再次革新文本分析的研究范式。
我们特面向经管人文社科研究人员的开发前沿方法课程。一方面,课程系统整合从文本预处理(分词算法、文本向量化、词嵌入),到核心NLP技术(文本分类、聚类、情感分析),再到前沿大模型文本分析,助力紧跟前沿方向。
另一方面,课程以实战为导向,结合股票市场情绪测算、股吧舆情分析、上市公司文本等5个真实案例,并有3个《经济研究》《管理评论》《金融研究》核心方法复现案例,助力学者文本分析进阶。
1. 课程概览
导言
上市公司公告、政府政策报告、平台评论各类文本分析频繁登上国内外《管理世界》《经济研究》、FT50等顶刊,文本分析具有巨大价值。文本分析随技术不断迭代,从文本量化到自然语言处理,如今的大语言模型再次革新文本分析的研究范式。
我们特面向经管人文社科研究人员的开发前沿方法课程。一方面,课程系统整合从文本预处理(分词算法、文本向量化、词嵌入),到核心NLP技术(文本分类、聚类、情感分析),再到前沿大模型文本分析,助力紧跟前沿方向。
另一方面,课程以实战为导向,结合股票市场情绪测算、股吧舆情分析、上市公司文本等5个真实案例,并有3个《经济研究》《管理评论》《金融研究》核心方法复现案例,助力学者文本分析进阶。
课程名称:社科文本分析:文本量化、NLP与大语言模型
课程时间:2025年9月27号上午9:00-12:00下午14:00-17:00
授课方式:腾讯会议线上直播+课后回放(至少保留两年)
报名方式:
扫码报名
课程特色:
(1)力保核心方法掌握:赠送价值499元Python基础课+至少2年回放反复看。
(2)5个实战代码可复用:上市公司公告、股票市场投资者情绪测算等高频场景为例,易迁移于其他场景。
(3)3个顶刊复刻:《经济研究》《管理评论》《金融研究》等顶刊案例。
Draven老师,毕业于西南财经大学,曾任职国内某大型公共调查数据库高级数据工程师,从事大数据实证研究4年,擅长Stata、Python、SQL等语言,擅长基于CHARLS、CLHLS、CFPS、HRS等公共数据库的数据分析。
3. 课程大纲
模块一:课程概述与环境准备
1.课程内容与学习路径介绍
2.开发环境配置与核心工具链解析
(1)Anaconda/Python 环境搭建:构建可复现的NLP实验环境
(2)核心库功能剖析与应用场景说明:paddlepaddle:飞桨深度学习框架,适用于序列建模与大规模预训练;pkuseg:高精度分词工具,支持细分领域自适应;jieba:轻量级分词库,兼顾效率与自定义能力;scikit-learn:传统机器学习文本分类与特征提取; transformers:构建和微调预训练语言模型。
模块二:文本预处理方法介绍
1.分词算法原理与实践对比
(1)基于规则与统计的分词方法:Jieba 自定义词典与词性标注机制剖析
(2)深度学习分词模型:pkuseg 的多领域适应性与模型选择策略
2.文本向量化与表示建模
(1)基于词频与权重的向量化方法:
CountVectorizer 的词袋模型实现
TfidfVectorizer 权重优化与平滑技术
3.词嵌入与分布式表示
(1)Word2Vec 算法深入:Skip-gram 与 CBOW 的对比与优化
(2)Doc2vec句向量模型介绍及学术应用
(3)预训练词向量加载与应用:语义推理与词空间可视化
(4)实战案例:词向量可视化与语义类比任务
4. 实战练习:多工具分词效果对比分析
(1)对新闻文本进行分词处理:选取多样化新闻文本数据,运用多种分词工具开展处理实践,熟悉不同工具在通用文本场景的表现。
(2)对比不同工具在文本上的表现:根据分词效果评估不同分词工具在实际任务中的表现。
模块三:文本分类任务——NLP与大模型
1.RandomForest分类模型介绍
2.roberta大模型分类任务简介
3.实战案例:新闻文本分类任务,机器学习模型与大模型效果对比
模块四:文本聚类和主题建模——NLP与大模型
1.传统主题建模工具介绍--LDA模型简介
2.text2vec-large-chinese大模型简介
3.DTM动态主题模型及文本挖掘中应用流程
4.基于BERTopic的文本主题建模
5.实战案例:股吧舆情文本聚类,传统模型与大模型效果对比
模块五:文本情感分析——NLP与大模型
1.情感分析相关技术介绍(词典法、机器学习法、深度学习法)
2.hugging-face Transformers 库快速入门
3.实战案例:使用预训练模型(RoBERTa)实现股吧舆情文本情感分析
模块六、大语言模型与文本结构化信息提取
1.通义qwen3模型的部署与调用
2.实战案例:上市公司年报MD&A信息提取
模块七:论文核心技术复现实战
1.基于上市公司年报构建企业文化指标
(1)主要技术:综合应用K-Means、词向量、相似度计算、TF-IDF加权词频统计
(2)复刻参考文献:华秀萍,程思睿,李婉宁,等.非正式融资中的文化力量——企业文化对商业信用的影响[J].金融研究,2023,(10):186-206.
2.股票市场投资者情绪测算
(1)主要技术:使用 Python 的jieba(中文分词)、scikit-learn(文本向量化)、chinese-electra(情感分类)等,通过挖掘投资者评论文本中的情感倾向,构建 “投资者情绪指数”。
(2)方法复刻参考文献:任晓松,孙莎,马茜,等.新能源汽车推广政策、融资约束与绿色技术创新[J].管理评论,2024,36(01):131-148.
3.大语言模型衡量企业数字技术风险暴露
(1)主要技术:word2vec拓展关键词;大模型标注训练集;bert模型训练与保存
(2)方法复刻参考文献:陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J].经济研究,2025,60(02):73-89.
4. 课程报名
课程价格
拼团购买:(9.29前支付)899元;
单独购买1399元;
可按照实际支付金额开具电子发票
价格包含:直播课程+录播回放+课程资料+课程答疑(仅开课前支付能进答疑群)
如有以下优惠,购买前找“学知老师”领取优惠券。
优惠一
扫码成为超级课程会员
4. 课程售后
课程发票/课程通知
联系“学知老师”可领取课程开课通知、结课证书、可报销发票等证明。
课程退款
在课程未开始前,接受“7天无理由退款”,由于是知识付费,一旦直播课开始后,不接受退款。退款请联系“学知老师”。

