

大语言模型革新实证研究范式！

数据皮皮侠

2025-11-13

人工智能（Artificial Intelligence, AI）与大语言模型（Large Language Models, LLMs）推动人类社会加速迈入“数智时代”，不断重塑实证研究与计算社会科学研究范式。信息、数据、知识正以前所未有的规模和速度迭代存储，给经管社科研究带来前所未有的机遇！

本课程以大语言模型为核心，深度解析大模型在数据清洗、文本分析、机器/深度学习、社会网络分析、变量构建、因果识别等科研数据分析中的实际痛点难点。通过来自Management Science、Review of Finance、《经济研究》《管理世界》《中国工业经济》等19个顶刊方法复刻案例，帮助学员从0基础到能胜任顶刊方法的突破。

报名即赠价值499元的Python基础课程（包含数据分析与数据采集），老师在群里进行答疑。学员可带着研究问题及技术困惑，课程团队将为学员提供专属技术可行路径评估，全方位帮助学员构建从编程入门到大模型实证研究的完整能力体系。

1. 课程概览

课程名称：Python大语言模型实证研究全场景实战——从0基础到顶刊复现

课程老师：Simon老师

课程时间：2025年11月30日、12月7日、12月14日、12月21日、12月28日上午10:00-12:00，下午14:30-17:00（视内容加时）

授课方式：腾讯会议线上直播＋录播回放

报名方式：

扫码报名

2. 老师介绍

Simon博士，毕业于四川大学,科技公司技术总监,拥有丰富学术大模型开发、大规模数据采集、机器学习、因果推理经验。

3. 课程大纲

第一讲：大模型前置基础之机器学习与深度学习

1. 机器学习基本概念

1)什么是机器学习？监督学习 vs 无监督学习

2)回归（Regression）与分类（Classification）的区别

3)训练集、测试集、验证集

4）常用机器学习模型评价指标

回归分析评价指标：MAE、MSE、RMSE、R²等

分类模型评价指标：准确率、精确率、召回率、F1值等

2. 数据准备与特征工程基础

1)特征与标签

2)使用 Pandas 构造特征矩阵 X 和目标向量 y

3)简单缺失值处理与数据标准化

3. 常见回归模型介绍与实现（scikit-learn）

1)线性回归（LinearRegression）

a)带正则化的回归：

b)LASSO（L1 正则，自动特征选择）

c)弹性网络（ElasticNet，L1+L2 混合）

2)树模型入门：

a)决策树

b)随机森林

c)梯度提升树

4.深度学习基础Python实现

神经网络基础

卷积神经网络（CNN）

循环神经网络（RNN）

5.双重机器学习原理与应用

双重机器学习原理及优势

基于EconML库实现双重机器学习(DDML)

学术图表输出:Python直接导出回归结果三线表

实战案例1：正则化回归在变量选择中的应用

参考文献：

易志高,刘逸飞,潘镇.CEO特质与企业数字化转型——基于机器学习的变量选择[J].系统工程理论与实践,2025,45(05):1462-1484.

实战案例2：综合运用梯度提升回归树GBRT和随机森林构建预测模型

参考文献：

杨子晖,李东承,陈雨恬.风险偏好能否成为我国金融风险的前瞻性指标？——来自前沿机器学习方法的新证据[J].管理世界,2025,41(10):21-43.

实战案例3：双重机器学习进行因果推断

参考文献：

徐红丹,王玖河.人工智能与制造企业新质生产力——基于双重机器学习模型[J].软科学,2025,39(05):26-33.

第二讲：大模型前置基础之文本分析与NLP

1．文本的预处理

a)从pdf文件中提取文本和表格

b)jieba中文分词与深度学习分词模型pkuseg

c)nltk英文分词

d)文本断句

2．文本的表示方法与向量化

a)词频统计与句频统计

b)词云图

c)TF-IDF

d)词嵌入技术Word2Vec

e)Doc2vec句向量模型

f)Embedding模型

3．文本相似度计算（可计算信息含量差异性等）

4．文本主题建模

a)LDA模型

b)DTM动态主题模型

c)BERTopic模型

5．文本情感分析

a)词典法

b)SnowNLP

实战案例4：基于上市公司年报构建供应链风险指标：综合应用词典法、句频统计

参考文献：

蓝发钦,胡晓敏,国文婷,等.企业供应链风险与纵向并购决策之谜——来自文本挖掘的经验证据[J].数量经济技术经济研究,2025,42(01):116-135.

实战案例5：使用Word2Vec算法构建数字专利词库，采用有监督机器学习（GBDT模型）将划分数字专利，同时对比Word2Vec、Embedding模型效果

参考文献：

周鹏,王卓,谭常春等.数字技术创新的价值——基于并购视角和机器学习方法的分析[J].中国工业经济,2024,(02):137-154.

实战案例6:基于BERTopic的计算社会科学主题发现

参考文献：

Gupta P, Ding B, Guan C, Ding D. Generative AI: A systematic review using topic modelling techniques[J]. Data and Information Management, 2024, 8(1): 100066.

第三讲：大模型相关基础之社会网络分析

1.社会网络分析Networkx包介绍

2.网络数据表示：邻接矩阵、edgelist、nodelist

3.网络数据的可视化

4.网络结构分析：递归关系、社区划分、子群、模块度

5.网络节点分析

（1）常用指标：网络中心性（出/入度中心度、中介中心度、接近中心度、特征向量中心度）、网络密度、结构洞指数、PageRank、TextRank等

（2）拓展指标：最短路距离、离心度、自我中心网络指标、复杂性（水平/垂直/空间）、异质性（地理、行业等）

6.语义网络与知识图谱

7.图数据库：Neo4j核心机制和实操全解

实战案例7：使用2010-2022高铁开通线路数据构建城市高铁网络

参考文献：

陈旭,邱斌,纪展鹏.城市网络嵌入、信息可得性与企业创新边界[J].经济研究,2025,60(06):57-76.

实战案例8：上市公司供应链网络构建

参考文献：

陈雯,范茵子.企业供应链风险感知与合作关系稳定性[J].管理世界,2024,40(11):209-228.

实战案例9：新闻文本共现新闻情绪

参考文献：

范小云,王业东,王道平.基于新闻大数据与机器学习的中国银行业系统性风险研究[J].世界经济,2022,45(04):3-30.DOI:10.19985/j.cnki.cassjwe.2022.04.006.

实战案例10:基于GPT模型与neo4j图数据库构建人工智能专利知识图谱及分析

参考文献：

周贞云,黄昭昭,邱均平.基于LLM与可视化的图数据库专利知识图谱构建及分析[J].情报杂志,1-9.

第四讲：大语言模型与Python实操

1.基于Transformer架构的大语言模型

1、Transformer与经管研究：

a)Transformer的基本原理和结构

b)编码器和解码器的结构；

c)自注意力机制；

2.大语言模型FT50及中文顶刊应用总结

3.顶刊中大厂主流大模型特点及Python调用：GPT、通义千问qwen3 模型、deepseek

4.ollama本地部署大模型

5.Prompt工程技术：面向Python的AI高质量输出技巧

6.预训练模型的对比、训练及应用：BERT、Sentence BERT、Fin BERT、RoBERTa、DistilBERT、SciBERT、PatentSBERTa、HeBERT、ERNIE

7.检索增强技术RAG及实战应用

实战案例11：基于大模型因果关系提炼潜力：基于GPT模型对中国核心经管期刊中因果主张的初步挖掘与知识表示（含《管理世界》《经济研究》《管理科学学报》《金融研究》《会计研究》《世界经济》）

参考文献：

Garg, P and T Fetzer (2025), “Causal Claims in Economics”, arXiv preprint arXiv:2501.06873.

实战案例12:基于ERNIE模型测度企业数字化转型

参考文献：

金星晔,左从江,方明月,等.企业数字化转型的测度难题：基于大语言模型的新方法与新发现[J].经济研究,2024,59(03):34-53.

实战案例13:大语言模型完成大数据匹配任务：招聘数据与中国职业分类大典匹配

参考文献：

张星民,张建清,刘小慧,等.外部技术断供、工作任务与企业劳动力需求结构——基于Transformer架构大数据文本挖掘的微观证据[J].数量经济技术经济研究,2025,42(09):72-93.

实战案例14:基于LangChain框架的个人知识库构建“提示工程+检索增强生成+超参数调整”

参考文献：

陈亚盛,蒋礼蔚,单敏,等.审计大模型的构建及应用研究——以员工违规经商办企业专项审计为例[J].审计研究,2024,(04):139-149.

第五讲：大语言模型前沿应用与顶刊复现

1.大语言模型进行大数据分类

实战案例15：基于BERT模型识别上市公司劳动节约型技术创新

参考文献：

刘青,肖柏高.劳动力成本与劳动节约型技术创新——来自AI语言模型和专利文本的证据[J].经济研究,2023,58(02):74-90.

2.大语言模型构建实证变量

实战案例16：利用GPT模型从MD&A文本中构建制造业服务化变量

参考文献：

Yimeng, N., Jing, W., Shenyang, J., & Zhibin, J. (2024). The Bullwhip Effect in Servitized Manufacturers. Management Science, 71(1):1-20.03402.

3.多个大模型协作完成复杂任务

实战案例17：基于Fin BERT 和DeepSeek模型分析MD&A特定信息与数据标注任务

参考文献：

陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J].经济研究,2025,60(02):73-89.

4.大语言模型构建语义网络

实战案例18：基于Embedding模型企业跨界竞争网络构建

参考文献：

牛晓健,强皓凡,吕斌,等.企业跨界竞争与债务违约风险——基于机器学习与复杂网络方法[J].金融研究,2024,(03):150-168.

5.大语言模型动态生成节点重要性评估算法

实战案例19:LLM+结合进化算法分析上市公司供应链网络关键节点

参考文献：

Mao, Jinzhu, et al. "Identify critical nodes in complex network with large language models." arXiv preprint arXiv:2403.03962 (2024).

6.大语言模型+BERTopic+知识图谱综合应用

实战案例20:基于大语言模型的网络舆情事理图谱构建与演化分析

参考文献：

姜帆,郭顺利.基于大语言模型的网络舆情事理图谱构建与演化分析—以体育赛事为例[J].情报科学,1-21.

4. 课程报名

课程价格

早鸟优惠价：1499元；

三人团购价：1199元；（组团报名人数越多越优惠）

原价2999元

可按照实际支付金额开具电子发票。

价格包含：直播课程+录播回放+课程资料+课程答疑

（仅开课前支付能进答疑群，如需进群请扫码添加推文底部学知老师，发送支付截图进群哦~否则视为只需要观看录播。）

如有以下优惠，购买前找“学知老师”领取优惠券。

优惠一

普通用户转发本推文到朋友圈/皮皮侠数据会员，私聊学知老师可获八折优惠券。

优惠二

尊享版课程会员可在直播结束后免费学习此录播课程；如需直播+答疑，尊享版课程会员可三折购买该直播课；1/3/5年期课程会员可四折购买该直播课。

扫码购买超级课程会员

5. 课程售后

课程发票/课程通知

联系“学知老师”可领取课程开课通知、结课证书、可报销发票等证明。

课程退款

在课程未开始前，接受“7天无理由退款”，由于是知识付费，一旦直播课开始后，不接受退款。退款请联系“学知老师”。

【声明】内容源于网络

数据皮皮侠

社科数据综合服务中心，立志服务百千万社科学者

内容 2137

粉丝 0

数据皮皮侠社科数据综合服务中心，立志服务百千万社科学者

总阅读16

粉丝0

内容2.1k