大数跨境
0
0

大语言模型文本分析前沿

大语言模型文本分析前沿 数据皮皮侠
2025-09-21
0


导言

上市公司公告、政府政策报告、平台评论各类文本分析频繁登上国内外《管理世界》《经济研究》、FT50等顶刊,文本分析具有巨大价值。文本分析随技术不断迭代,从文本量化到自然语言处理,如今的大语言模型再次革新文本分析的研究范式,开启社会科学研究新时代。

我们特面向经管人文社科研究人员的开发前沿方法课程。一方面,课程系统整合从文本预处理(分词算法、文本向量化、词嵌入),到核心NLP技术(文本分类、聚类、情感分析),再到前沿大模型文本分析,助力紧跟前沿方向。

另一方面,课程以实战为导向,结合股票市场情绪测算、股吧舆情分析、上市公司文本等5个真实案例,并有3个《经济研究》《管理评论》《金融研究》核心方法复现案例,助力学者文本分析进阶。


1. 课程概览

课程名称:社科文本分析:文本量化、NLP与大语言模型


课程时间:2025年9月27号上午9:00-12:00下午14:00-17:00


授课方式:腾讯会议线上直播+课后回放(至少保留两年)


报名方式:

扫码报名

图片

 课程特色:

(1)力保核心方法掌握:赠送价值499元Python基础课+至少2年回放反复看。

(2)5个实战代码可复用:上市公司公告、股票市场投资者情绪测算等高频场景为例,易迁移于其他场景。

(3)3个顶刊复刻:《经济研究》《管理评论》《金融研究》等顶刊案例。

2. 老师介绍


Draven老师,毕业于西南财经大学,曾任职国内某大型公共调查数据库高级数据工程师,从事大数据实证研究4年,擅长Stata、Python、SQL等语言,擅长基于CHARLS、CLHLS、CFPS、HRS等公共数据库的数据分析。

3. 课程大纲



                                                 


模块一:课程概述与环境准备

1.课程内容与学习路径介绍

2.开发环境配置与核心工具链解析

  (1)Anaconda/Python 环境搭建:构建可复现的NLP实验环境

  (2)核心库功能剖析与应用场景说明:paddlepaddle:飞桨深度学习框架,适用于序列建模与大规模预训练;pkuseg:高精度分词工具,支持细分领域自适应;jieba:轻量级分词库,兼顾效率与自定义能力;scikit-learn:传统机器学习文本分类与特征提取; transformers:构建和微调预训练语言模型。

模块二:文本预处理方法介绍

1.分词算法原理与实践对比

(1)基于规则与统计的分词方法:Jieba 自定义词典与词性标注机制剖析

(2)深度学习分词模型:pkuseg 的多领域适应性与模型选择策略

2.文本向量化与表示建模

(1)基于词频与权重的向量化方法:

CountVectorizer 的词袋模型实现

TfidfVectorizer 权重优化与平滑技术

3.词嵌入与分布式表示

(1)Word2Vec 算法深入:Skip-gram 与 CBOW 的对比与优化

(2)Doc2vec句向量模型介绍及学术应用

(3)预训练词向量加载与应用:语义推理与词空间可视化

(4)实战案例:词向量可视化与语义类比任务

4. 实战练习:多工具分词效果对比分析

(1)对新闻文本进行分词处理:选取多样化新闻文本数据,运用多种分词工具开展处理实践,熟悉不同工具在通用文本场景的表现。

(2)对比不同工具在文本上的表现:根据分词效果评估不同分词工具在实际任务中的表现。

模块三:文本分类任务——NLP与大模型

1.RandomForest分类模型介绍

2.roberta大模型分类任务简介

3.实战案例:新闻文本分类任务,机器学习模型与大模型效果对比

模块四:文本聚类和主题建模——NLP与大模型

1.传统主题建模工具介绍--LDA模型简介

2.text2vec-large-chinese大模型简介

3.DTM动态主题模型及文本挖掘中应用流程

4.基于BERTopic的文本主题建模

5.实战案例:股吧舆情文本聚类,传统模型与大模型效果对比

模块五:文本情感分析——NLP与大模型

1.情感分析相关技术介绍(词典法、机器学习法、深度学习法)

2.hugging-face Transformers 库快速入门

3.实战案例:使用预训练模型(RoBERTa)实现股吧舆情文本情感分析

模块六、大语言模型与文本结构化信息提取

1.通义qwen3模型的部署与调用

2.实战案例:上市公司年报MD&A信息提取

模块七:论文核心技术复现实战

1.基于上市公司年报构建企业文化指标

(1)主要技术:综合应用K-Means、词向量、相似度计算、TF-IDF加权词频统计

(2)复刻参考文献:华秀萍,程思睿,李婉宁,等.非正式融资中的文化力量——企业文化对商业信用的影响[J].金融研究,2023,(10):186-206.

2.股票市场投资者情绪测算

(1)主要技术:使用 Python 的jieba(中文分词)、scikit-learn(文本向量化)、chinese-electra(情感分类)等,通过挖掘投资者评论文本中的情感倾向,构建 “投资者情绪指数”。

(2)方法复刻参考文献:任晓松,孙莎,马茜,等.新能源汽车推广政策、融资约束与绿色技术创新[J].管理评论,2024,36(01):131-148.

3.大语言模型衡量企业数字技术风险暴露

(1)主要技术:word2vec拓展关键词;大模型标注训练集;bert模型训练与保存 

(2)方法复刻参考文献:陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J].经济研究,2025,60(02):73-89.



4. 课程报名


课程价格

拼团购买:(9.29前支付)899元;

单独购买1399元;

可按照实际支付金额开具电子发票


价格包含:直播课程+录播回放+课程资料+课程答疑(仅开课前支付能进答疑群)


如有下优惠,购买前找“学知老师”领取优惠券。


优惠一

普通用户转发本推文到朋友圈/皮皮侠数据会员,私聊学知老师可获八折优惠券。
优惠二
尊享版超级课程会员可在直播结束后免费学习录播课程;如需直播+答疑+录播,所有超级课程会员可三折购买该课程;


扫码成为超级课程会员

图片


4. 课程售后


课程发票/课程通知

联系“学知老师”可领取课程开课通知、结课证书、可报销发票等证明。








图片

课程退款

在课程未开始前,接受“7天无理由退款”,由于是知识付费,一旦直播课开始后,不接受退款。退款请联系学知老师”。

【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读615
粉丝0
内容2.1k