

Python大语言模型、网络分析、文本分析、机器学习贯通！

数据皮皮侠

2025-07-31

导言

David Lazer教授等15位学者于2009年2月在Science发表里程碑式论文“Computational Social Science”，融合计算科学、数据科学与社会科学的计算社会科学应运而生，成为解码人类经济社会运行规律的科学利器。随着数字时代的发展，频率高、跨度大、范围广、多模态、规模大的经济社会运行资料得以被储存、采集、挖掘，而以ChatGPT、Deepseek等大语言模型（LLM）为代表的AI工具的涌现，再次掀起社会科学研究范式革命。通过文本分析、机器/深度学习、社会网络分析、大语言模型等技术测度变量来验证或者构建社会理论已成为社会科学研究者必备能力。

《Python计算社会科学训练营》是一门注重科研实操与应用的课程，旨在帮助学员从0基础快速掌握Python计算社会科学方法。共设置Python结构化数据分析、网络数据采集、文本分析、机器学习、社会网络分析、大语言模型6个专题模块。内容以高频前沿科研实用场景为主，每个专题都将通过代码与案例进行演示，深度复现FT50顶刊、《经济研究》《管理世界》等顶刊案例核心方法。

授课过程中将教会大家使用前沿的AI工具辅助编程，让学员在短时间内掌握Python计算社会科学的研究思路、研究方法，我们特意将授课时间拉长，旨在让学员充分吸收及与老师充分互动巩固提升。同时学员可以带着自己研究问题及技术困惑，数据皮皮侠课程团队将会为大家提供专属技术可行路径评估方案咨询（仅购买整个训练营可享受。本名课程支持分成三个模块购买，详情可咨询客服）。

1. 课程概览

课程名称：Python计算社会科学训练营：从0基础到机器学习与大语言模型进阶

课程老师：Simon老师

课程时间：2025年7月20日、7月27日、8月3日、8月10日、8月17日、8月24日（上午10：00-12：00，下午15：00-17：00，可能视情况加时）

授课方式：腾讯会议线上直播

报名方式：

扫码报名

课程特色：

（1)从0基础到精通：Python基础→结构化数据计算→网络数据采集→机器学习→深度学习→文本分析→网络分析→大语言模型

（2)TOP刊方法复刻：一共设置22个案例，含Management Science、Review of Financial Studies、Research policy《经济研究》《管理世界》《会计研究》案例相关方法复刻

（3)专属技术方案：学员可以带着自己研究问题及技术困惑，数据皮皮侠课程团队将会为大家提供专属技术可行路径评估方案咨询（购买整个训练营可享）

2. 老师介绍

主讲老师：Simon博士,毕业于四川大学，科技公司技术总监，拥有丰富学术大模型开发、大规模数据采集、机器学习、因果推理经验。

助教老师：

Bob，中央财经大学硕士，深耕社科大数据研究，熟悉Stata编程软件。

Hugo，阿德莱德大学商业数据分析硕士，钻研自然语言处理技术、Python数学计算等方向。

Joy，西南民族大学经济学硕士，擅长Python、Stata、ArcGis，熟悉UciNet进行社会科学数据处理与实证研究。

Bruce，天津大学管理学硕士，擅长Python、Stata进行网络挖掘、智能计算、运筹优化。

Miroslav，UW-Madison经济学硕士，擅长Python数据分析、计量经济学、图像处理、机器学习。

3. 课程大纲

专题一：Python基础与结构化数据分析（7月20日）

1、Anaconda 集成环境部署

2、Python数据结构及其常用方法（数字、字符串、布尔值等）

3、数据容器（列表/元组/集合/字典）高级用法

4、Python控制流与函数式编程

（1）条件逻辑与循环优化（if else、for & while）

（2）函数式编程范式

5、面向对象编程

（1）类与对象的设计模式

（2）继承与多态的应用场景

6、Python与文件读写（Stata、Excel、CSV、txt等读写）

7、Python与异常处理

（1）try-except-finally 结构

（2）自定义异常类设计

8、Pandas面板数据构建

（1）DataFrame 高级索引与筛选

（2）指标计算：分组计算、分组均值、移动平均值、方差、标准差

（3）效率神器：表格批操作（apply）

（4）面板数据匹配：数据拼接、合并（匹配）

9、Matplotlib 与 Seaborn 实现数据可视化

10、实战案例

（1）基于专利数据计算利用式创新和探索式创新

方法复刻参考文献：Guan J, Liu N. Exploitative and exploratory innovations in knowledge network and collaboration network: A patent analysis in the technological field of nano-energy[J]. Research policy, 2016, 45(1): 97-112.

（2）插值法——以地级市维度夜间灯光数据为例

（3）宏微观数据匹配：高铁开通数据匹配上市公司信息

专题二：Python网络数据采集（7月27日）

1、数据采集原理与注意事项

2、requests发送网络请求

3、网络请求返回结果解析

（1）html解析

（2）json解析

（3）文件下载

4、常用反爬策略讲解

（1）请求头构造

（2）Cookies获取

（3）代理IP池使用

（4）图片验证码

4、高效爬虫策略

5、实战案例

（1）上市公司年报下载

（2）土地市场网数据采集

（3）经管期刊论文基础信息采集

（4）中国证券监督管理委员会行政处罚数据采集

专题三：Python机器学习与科研应用（8月3日）

1、传统机器学习算法Python实现

（1）正则化回归LASSO/Ridge

（2）K-近邻算法（KNN）

（3）决策树

（4）支持向量机（SVM）

（5）聚类算法

（6）朴素贝叶斯（Gaussian NB）

2、现代机器学习Python实现

（1）ERNIE：基于BERT的预训练模型

（2）LangChain：自然语言处理中的链式结构模型

3、深度学习基础Python实现

（1）神经网络基础

（2）卷积神经网络（CNN）

（3）循环神经网络（RNN）

4、实战案例

（1）正则化回归在变量选择中的应用

方法复刻参考文献：易志高,刘逸飞,潘镇.CEO特质与企业数字化转型——基于机器学习的变量选择[J].系统工程理论与实践,2025,45(05):1462-1484.

（2）机器学习对数字专利分类

方法复刻参考文献：周鹏,王卓,谭常春,等.数字技术创新的价值——基于并购视角和机器学习方法的分析[J].中国工业经济,2024,(02):137-154.

（3）综合应用神经网络与随机森林进行预测分析

方法复刻参考文献：许年行,张桉笛,吴世农.中国上市企业排污信息管理研究：测度与治理[J].经济研究,2024,59(11):139-156.

专题四：Python文本分析与科研应用（8月10日）

1、pdf文件读取与文档解析（Pdfplumber）

2、Python文本分析基础：中文分词、词频统计与词云图绘制；文本断句与句频统计

3、加权文本计算TF-IDF（词频-逆文档频率）

4、文本相似度计算（可计算信息含量差异性等）

5、词嵌入Word2Vec（可拓展词典）

6、情感分析：词典法与Snow NLP

7、传统主题建模LDA与BERTopic

8、实战案例：

（1）TF-IDF计算人工智能关注度——基于2020-2023年人民日报文本数据

（2）法律问答短文本的语义分析与分类

方法复刻参考文献：臧志栋,韩挺,李秀霞.基于关键词扩展的社会化问答社区短文本分类研究——以法律问答社区为例[J].情报杂志,2024,43(12):178-185.

（3）基于公司年报构建供应链风险指标：综合应用词典法、句频统计

方法复刻参考文献：蓝发钦,胡晓敏,国文婷,等.企业供应链风险与纵向并购决策之谜——来自文本挖掘的经验证据[J].数量经济技术经济研究,2025,42(01):116-135.

（4）基于政府报告年报构建产业政策关联：综合应用Word2Vec技术、文本相似度

方法复刻参考文献：覃飞,沈艳.产业政策关联度对公司业绩影响研究[J].数量经济技术经济研究,2021,38(09):117-138.

专题五：Python网络分析与实证应用（8月17日）

1、社会网络分析Networkx包介绍

2、网络数据表示：邻接矩阵、edgelist、nodelist

3、网络数据的可视化

4、网络整体分析：中心势、小世界、中心/边缘、密度、直径、平均路径长度、度分布、平均聚类系数、结构凝聚性

5、网络结构分析：递归关系、社区划分、子群、模块度

6、网络节点分析

（1）常用指标：节点度、结构洞、网络中心性（出/入度中心度、中介中心度、接近中心度、特征向量中心度）、聚类系数

（2）拓展指标：最短路距离、离心度、自我中心网络指标、复杂性（水平/垂直/空间）、异质性（地理、行业等）

7、动态网络分析：时间序列网络、动态网络的构建与分析、动态网络可视化

8、实战案例：

（1）人民网留言板语义共现网络——基于2024年人民网留言板数据

（2）上市公司董事网络构建

方法复刻参考文献：林钟高,辛明璇.董事网络位置与企业金融资产投资效率[J].会计研究,2023,(02):79-95.

（3）上市公司供应链网络构建

方法复刻参考文献：陈雯,范茵子.企业供应链风险感知与合作关系稳定性[J].管理世界,2024,40(11):209-228.

专题六：Python大语言模型与实证研究（8月24日）

1、大语言模型原理简介：计算速度和记忆能力；注意力机制的引入；编码器和解码器的结构；Transformer的基本原理和结构

2、大语言模型在经管领域应用（基于FT50期刊的总结）

3、BERT、SBERT 、RoBERTa模型、ERNIE、GPT原理、特点、优势

4、Prompt工程技术：如何让AI高质量输出？

5、在Python中使用大语言模型

6、ollama本地部署大模型

7、Embedding模型实现高精度文本匹配

8、微调技术、检索增强RAG、知识自蒸馏策略

9、实战案例

（1）大语言模型情感分析：基于央行货币政策报告（BERT）

Jha, Manish, Hongyi Liu, and Asaf Manela. "Does finance benefit society? A language embedding approach." The Review of Financial Studies (2025): hhaf012.

（2）大模型变量构建：基于中国上市公司年报构建制造服务化指标（GPT）

方法复刻参考文献：Niu, Yimeng, et al. "The bullwhip effect in servitized manufacturers." Management Science 71.1 (2025): 1-20.

（3）大模型变量构建：基于中国上市公司年报构建人工智能指标（ERNIE模型）

方法复刻参考文献：金星晔,左从江,方明月,等.企业数字化转型的测度难题：基于大语言模型的新方法与新发现[J].经济研究,2024,59(03):34-53.

（4）多模型协作完成复杂任务：基于Fin BERT 和DeepSeek模型分析MD&A特定信息与数据标注任务

方法复刻参考文献：陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J].经济研究,2025,60(02):73-89.

（5）招聘数据与大型职业信息数据库O*NET匹配

参考文献：Eloundou, T., Manning, S., Mishkin, P., & Rock, D. (2024). GPTs are GPTs: Labor market impact potential of LLMs. Science (American Association for the Advancement of Science), 384(6702), 1306–1308.

（6）基于个人科研知识库的学术智能体搭建：“提示工程+检索增强生成+超参数调整”

4. 课程报名