大数跨境
0
0

Stata大语言模型开启实证研究新时代!

Stata大语言模型开启实证研究新时代! 数据皮皮侠
2025-09-18
1

导言

“数智时代”加速到来,经济社会运行数据可被广泛储存、采集和挖掘,以ChatGPT、DeepSeek等为代表的大语言模型(LLM)不断涌现迭代,掀起实证研究变革,我们开发全网首个系统的Stata大语言模型与实证研究课程,助力学者科研精进!

课程深度挖掘Stata通过多种方式调用大模型的潜力,一方面将大模型的智能化能力融入Stata工作流,实现代码生成、数据清洗、可视化报告、结果解读等环节的效率跃升与思路拓展,另一方面,开发个性化stata大模型命令实现批量数据标注、大数据分类、结构化信息提取、文本指标构建等顶刊典型应用。通过《经济研究》、Management Science、The Review of Financial Studies等顶刊案例实现可迁移的Stata大模型应用能力。

-购课礼包:本课附赠价值 499 元的python基础教程,内容涵盖Windows与Mac系统的环境配置、安装指南以及Python基础入门教学。


1. 课程概览

课程名称:Stata大语言模型与实证研究

课程时间:2025年10月25日下午14:00-18:00

授课方式:腾讯会议线上直播+课后回放(至少保留两年)

前置要求stata基础操作和Python基础语法



报名方式:

扫码报名

 课程特色:

1.前沿性:配套5个经管场景实战案例,对标顶刊论文中的研究场景

2.实战性:全流程实操,可直接复制的代码与操作指引

3.跨工具融合:详解Stata调用大模型的各种路径,打通Stata与Python生态

2. 老师介绍


Draven老师毕业于西南财经大学,曾任职国内某大型公共调查数据库高级数据工程师,从事大数据实证研究4年,擅长Stata、Python、SQL等语言。

3. 课程大纲



                                                 

模块一:课程概述与前置准备

1. 课程内容与学习路径

  • Stata与大模型结合的应用场景:自动化代码生成、结果解读、文本数据处理、研究思路拓展

  • 案例1:以学术研究中的数据分析流程为例,展示大模型如何赋能Stata工作流

2. 环境配置与工具准备

- 必备软件:

  • Stata 16及以上版本(支持Python集成)

  • Python 3.8+环境

  • 代码编辑器(在vscode中编写stata代码)

- API与密钥:

  • 大模型API申请(OpenAI API、deepseek、阿里云通义千问等)

- Stata插件安装:

Plain Text

* 安装Stata-Python交互工具

ssc install python

* 安装HTTP请求工具

ssc install httplib2

* 安装JSON处理工具

ssc install jsonio

- Python库安装:

Bash

  pip install openai paddlepaddle baidu-aip requests stata_setup


模块二:大模型提示词工程基础

1. 提示词设计基本原则

  • 明确任务目标

  • 提供上下文信息

  • 设定角色引导

  • 规范化提示词实战

2. 结构化提示与输出格式控制

  • 使用Markdown格式约束输出

  • 加入错误处理提示:"如果代码可能存在潜在问题,请用注释说明"

  • 多轮对话技巧:基于大模型输出进行迭代优化

3.大语言模型实证研究应用场景

(1)全球顶级期刊(Nature、PNAS、Financial Times 50等)大语言模型应用范式总结:金融学、经济学、管理学、社会科学

(2)大模型在数据分析中的典型应用场景

  • 数据清洗代码生成:处理缺失值、异常值、格式转换

  • 数据变量生成:结构化信息提取、数据标注

  • 统计模型选择建议:根据数据类型推荐合适的分析方法

  • 结果解读与可视化:将回归输出转换为自然语言解释

  • 研究思路拓展:基于初步结果提出进一步分析方向


模块三:Stata中调用大模型的实现方法

1. Stata调用大模型的三种方式

方式1:通过Stata的shell命令调用Python脚本

  • 适用场景:复杂交互、批量处理

  • 优势:灵活性高,可充分利用Python生态

方式2:利用Stata的Python集成功能

  • 适用场景:中等复杂度任务,需要Stata与Python变量交互

  • 优势:无需切换环境,变量传递方便

方式3:通过HTTP请求直接调用API

  • 适用场景:简单查询,轻量级交互

  • 优势:无需Python,纯Stata代码实现

2. 高级应用:大模型辅助自动化报告生成

  • 从Stata导出规整分析结果表格(回归系数、描述性统计)

  • 调用大模型将结果转换为结构化分析报告

  • 自动生成结论与政策建议

3. 大语言模型数据分析初探

案例1:大语言模型区分数字经济项目——基于4817项2025年国家社会科学基金立项名单的分析

参考文献:

金星晔,左从江,方明月,等.企业数字化转型的测度难题:基于大语言模型的新方法与新发现[J].经济研究,2024,59(03):34-53.


模块四:Stata个性化大模型命令开发及顶刊复现

1、基于通义千问开发属于自己的个性化大模型stata命令

2、多模型协作完成复杂任务:基于Bert模型和deepseek进行数据标注

案例2:大模型情感分析——分析股吧文本数据,提取情感倾向并与定量变量关联

流程实现:用Stata加载包含文本变量的数据集;调用大模型对文本进行情感分析(生成情感分数);将情感分数作为新变量保存到Stata数据集;分析情感分数与其他变量的相关性

参考文献:

Jha, Manish, Hongyi Liu, and Asaf Manela. “Does finance benefit society? A language embedding approach.” The Review of Financial Studies (2025): hhaf012.

案例3:大模型文本变量构建——基于中国上市公司年报构建制造服务化指标(GPT)

参考文献:

Niu, Yimeng, et al. "The bullwhip effect in servitized manufacturers." Management Science 71.1 (2025): 1-20.

案例4:大语言模型进行大数据分类:使用Stata调用 deepseek-r1 模型判断2005-2024上市公司高管绿色背景

案例5:大语言模型结构化信息提取

使用Stata调用大语言模型进行文本主要内容提取——2005-2025年省政府工作报告中的经济增长目标提取

参考文献:

陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J].经济研究,2025,60(02):73-89.

4. 课程报名


课程价格

拼团购买:(10.27前支付)799元;

原价1299元

可按照实际支付金额开具电子发票


价格包含:直播课程+录播回放+课程资料+课程答疑(仅开课前支付能进答疑群)


如有下优惠,购买前找“学知老师”领取优惠券。


优惠一

普通用户转发本推文到朋友圈/皮皮侠数据会员,私聊学知老师可获八折优惠券。
优惠二
尊享版超级课程会员可在直播结束后免费学习录播课程;如需直播+答疑+录播,所有超级课程会员可三折购买该课程;


扫码成为超级课程会员


4. 课程售后


课程发票/课程通知

联系“学知老师”可领取课程开课通知、结课证书、可报销发票等证明。








课程退款

在课程未开始前,接受“7天无理由退款”,由于是知识付费,一旦直播课开始后,不接受退款。退款请联系学知老师”。

【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读615
粉丝0
内容2.1k