大数跨境
0
0

大语言模型革新实证研究范式!

大语言模型革新实证研究范式! 数据皮皮侠
2025-11-13
0


人工智能(Artificial Intelligence, AI)与大语言模型(Large Language Models, LLMs)推动人类社会加速迈入“数智时代”,不断重塑实证研究与计算社会科学研究范式。信息、数据、知识正以前所未有的规模和速度迭代存储,给经管社科研究带来前所未有的机遇!

本课程以大语言模型为核心,深度解析大模型在数据清洗、文本分析、机器/深度学习、社会网络分析、变量构建、因果识别等科研数据分析中的实际痛点难点。通过来自Management Science、Review of Finance、《经济研究》《管理世界》《中国工业经济》等19个顶刊方法复刻案例,帮助学员从0基础到能胜任顶刊方法的突破。

报名即赠价值499元的Python基础课程(包含数据分析与数据采集),老师在群里进行答疑。学员可带着研究问题及技术困惑,课程团队将为学员提供专属技术可行路径评估,全方位帮助学员构建从编程入门到大模型实证研究的完整能力体系。


图片

1. 课程概览


课程名称:Python大语言模型实证研究全场景实战——从0基础到顶刊复现

课程老师:Simon老师

课程时间:2025年11月30日、12月7日、12月14日、12月21日、12月28日上午10:00-12:00,下午14:30-17:00(视内容加时)

授课方式:腾讯会议线上直播+录播回放

报名方式:

扫码报名

图片
2. 老师介绍


Simon博士,毕业于四川大学,科技公司技术总监,拥有丰富学术大模型开发、大规模数据采集、机器学习、因果推理经验。

3. 课程大纲



                                                 

第一讲:大模型前置基础之机器学习与深度学习

1. 机器学习基本概念

1)什么是机器学习?监督学习 vs 无监督学习

2)回归(Regression)与分类(Classification)的区别

3)训练集、测试集、验证集

4)常用机器学习模型评价指标

回归分析评价指标:MAE、MSE、RMSE、R²

分类模型评价指标:准确率、精确率、召回率、F1值等

2. 数据准备与特征工程基础

1)特征与标签

2)使用 Pandas 构造特征矩阵 X 和目标向量 y

3)简单缺失值处理与数据标准化

3. 常见回归模型介绍与实现(scikit-learn)

1)线性回归(LinearRegression)

a)带正则化的回归:

b)LASSO(L1 正则,自动特征选择)

c)弹性网络(ElasticNet,L1+L2 混合)

2)树模型入门:

a)决策树

b)随机森林

c)梯度提升树

4.深度学习基础Python实现

神经网络基础

卷积神经网络(CNN)

循环神经网络(RNN)

5.双重机器学习原理与应用

双重机器学习原理及优势

基于EconML库实现双重机器学习(DDML)

学术图表输出:Python直接导出回归结果三线表

实战案例1:正则化回归在变量选择中的应用

参考文献

易志高,刘逸飞,潘镇.CEO特质与企业数字化转型——基于机器学习的变量选择[J].系统工程理论与实践,2025,45(05):1462-1484.

实战案例2:综合运用梯度提升回归树GBRT和随机森林构建预测模型

参考文献

杨子晖,李东承,陈雨恬.风险偏好能否成为我国金融风险的前瞻性指标?——来自前沿机器学习方法的新证据[J].管理世界,2025,41(10):21-43.

实战案例3:双重机器学习进行因果推断

参考文献

徐红丹,王玖河.人工智能与制造企业新质生产力——基于双重机器学习模型[J].软科学,2025,39(05):26-33.


第二讲:大模型前置基础之文本分析与NLP

1.文本的预处理

a)pdf文件中提取文本和表格

b)jieba中文分词与深度学习分词模型pkuseg

c)nltk英文分词

d)文本断句

2.文本的表示方法与向量化

a)词频统计与句频统计

b)词云图

c)TF-IDF

d)词嵌入技术Word2Vec

e)Doc2vec句向量模型

f)Embedding模型

3.文本相似度计算(可计算信息含量差异性等)

4.文本主题建模

a)LDA模型

b)DTM动态主题模型

c)BERTopic模型

5.文本情感分析

a)词典法

b)SnowNLP

实战案例4:基于上市公司年报构建供应链风险指标:综合应用词典法、句频统计

参考文献:

蓝发钦,胡晓敏,国文婷,等.企业供应链风险与纵向并购决策之谜——来自文本挖掘的经验证据[J].数量经济技术经济研究,2025,42(01):116-135.

实战案例5:使用Word2Vec算法构建数字专利词库,采用有监督机器学习(GBDT模型)将划分数字专利,同时对比Word2Vec、Embedding模型效果

参考文献

周鹏,王卓,谭常春等.数字技术创新的价值——基于并购视角和机器学习方法的分析[J].中国工业经济,2024,(02):137-154.

实战案例6:基于BERTopic的计算社会科学主题发现

参考文献: 

Gupta P, Ding B, Guan C, Ding D. Generative AI: A systematic review using topic modelling techniques[J]. Data and Information Management, 2024, 8(1): 100066. 


第三讲:大模型相关基础之社会网络分析

1.社会网络分析Networkx包介绍

2.网络数据表示:邻接矩阵、edgelist、nodelist

3.网络数据的可视化

4.网络结构分析:递归关系、社区划分、子群、模块度

5.网络节点分析

1)常用指标:网络中心性(出/入度中心度、中介中心度、接近中心度、特征向量中心度)、网络密度、结构洞指数、PageRank、TextRank等

2)拓展指标:最短路距离、离心度、自我中心网络指标、复杂性(水平/垂直/空间)、异质性(地理、行业等)

6.语义网络与知识图谱

7.图数据库:Neo4j核心机制和实操全解

实战案例7:使用2010-2022高铁开通线路数据构建城市高铁网络

参考文献

陈旭,邱斌,纪展鹏.城市网络嵌入、信息可得性与企业创新边界[J].经济研究,2025,60(06):57-76.

实战案例8:上市公司供应链网络构建

参考文献:

陈雯,范茵子.企业供应链风险感知与合作关系稳定性[J].管理世界,2024,40(11):209-228.

实战案例9:新闻文本共现新闻情绪

参考文献:

范小云,王业东,王道平.基于新闻大数据与机器学习的中国银行业系统性风险研究[J].世界经济,2022,45(04):3-30.DOI:10.19985/j.cnki.cassjwe.2022.04.006.

实战案例10:基于GPT模型与neo4j图数据库构建人工智能专利知识图谱及分析

参考文献:

周贞云,黄昭昭,邱均平.基于LLM与可视化的图数据库专利知识图谱构建及分析[J].情报杂志,1-9.


第四讲:大语言模型与Python实操

1.基于Transformer架构的大语言模型

1、Transformer与经管研究:

a)Transformer的基本原理和结构

b)编码器和解码器的结构;

c)自注意力机制;

2.大语言模型FT50及中文顶刊应用总结

3.顶刊中大厂主流大模型特点及Python调用:GPT、通义千问qwen3 模型、deepseek

4.ollama本地部署大模型

5.Prompt工程技术:面向Python的AI高质量输出技巧

6.预训练模型的对比、训练及应用:BERT、Sentence BERT、Fin BERT、RoBERTa、DistilBERTSciBERTPatentSBERTaHeBERT、ERNIE

7.检索增强技术RAG及实战应用

实战案例11基于大模型因果关系提炼潜力:基于GPT模型对中国核心经管期刊中因果主张的初步挖掘与知识表示(含《管理世界》《经济研究》《管理科学学报》《金融研究》《会计研究》《世界经济》)

参考文献

Garg, P and T Fetzer (2025), “Causal Claims in Economics”, arXiv preprint arXiv:2501.06873.

实战案例12:基于ERNIE模型测度企业数字化转型

参考文献

金星晔,左从江,方明月,等.企业数字化转型的测度难题:基于大语言模型的新方法与新发现[J].经济研究,2024,59(03):34-53.

实战案例13:大语言模型完成大数据匹配任务:招聘数据与中国职业分类大典匹配

参考文献

张星民,张建清,刘小慧,等.外部技术断供、工作任务与企业劳动力需求结构——基于Transformer架构大数据文本挖掘的微观证据[J].数量经济技术经济研究,2025,42(09):72-93.

实战案例14:基于LangChain框架的个人知识库构建“提示工程+检索增强生成+超参数调整”

参考文献

陈亚盛,蒋礼蔚,单敏,等.审计大模型的构建及应用研究——以员工违规经商办企业专项审计为例[J].审计研究,2024,(04):139-149.


第五讲:大语言模型前沿应用与顶刊复现

1.大语言模型进行大数据分类

实战案例15基于BERT模型识别上市公司劳动节约型技术创新

参考文献

刘青,肖柏高.劳动力成本与劳动节约型技术创新——来自AI语言模型和专利文本的证据[J].经济研究,2023,58(02):74-90.

2.大语言模型构建实证变量

实战案例16:利用GPT模型从MD&A文本中构建制造业服务化变量

参考文献

Yimeng, N., Jing, W., Shenyang, J., & Zhibin, J. (2024). The Bullwhip Effect in Servitized Manufacturers. Management Science, 71(1):1-20.03402.

3.个大模型协作完成复杂任务

实战案例17:基于Fin BERT 和DeepSeek模型分析MD&A特定信息与数据标注任务

参考文献

陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J].经济研究,2025,60(02):73-89.

4.大语言模型构建语义网络

实战案例18:基于Embedding模型企业跨界竞争网络构建

参考文献

牛晓健,强皓凡,吕斌,等.企业跨界竞争与债务违约风险——基于机器学习与复杂网络方法[J].金融研究,2024,(03):150-168.

5.大语言模型动态生成节点重要性评估算法

实战案例19:LLM+结合进化算法分析上市公司供应链网络关键节点

参考文献:

Mao, Jinzhu, et al. "Identify critical nodes in complex network with large language models." arXiv preprint arXiv:2403.03962 (2024).

6.大语言模型+BERTopic+知识图谱综合应用

实战案例20:基于大语言模型的网络舆情事理图谱构建与演化分析

参考文献:

姜帆,郭顺利.基于大语言模型的网络舆情事理图谱构建与演化分析—以体育赛事为例[J].情报科学,1-21.

4. 课程报名


课程价格

早鸟优惠价:1499元;

三人团购价:1199元;(组团报名人数越多越优惠)

原价2999元

可按照实际支付金额开具电子发票。


价格包含:直播课程+录播回放+课程资料+课程答疑

开课前支付能进答疑群如需进群请扫码添加推文底部学知老师,发送支付截图进群哦~否则视为只需要观看录播。


如有下优惠,购买前找“学知老师”领取优惠券。


优惠一

普通用户转发本推文到朋友圈/皮皮侠数据会员,私聊学知老师可获八折优惠券。


优惠二

尊享版课程会员可在直播结束后免费学习此录播课程;如需直播+答疑,尊享版课程会员可三折购买该直播课;1/3/5年期课程会员可四折购买该直播课。


扫码购买超级课程会员

图片


5. 课程售后


课程发票/课程通知

联系“学知老师”可领取课程开课通知、结课证书、可报销发票等证明。








图片

课程退款

在课程未开始前,接受“7天无理由退款”,由于是知识付费,一旦直播课开始后,不接受退款。退款请联系学知老师”。

【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读16
粉丝0
内容2.1k