大数跨境
0
0

Python编程与政策文本挖掘暑期课程

Python编程与政策文本挖掘暑期课程 数据皮皮侠
2022-07-08
1
导读:政策文本研究正在经历定量化、大数据化和归因化的发展趋势


►►►

课程简介

关于政策文本研究

随着大数据时代的到来,政策文本研究正在经历定量化、大数据化和归因化的发展趋势(任弢等,2017),主要呈现四个特征(黄萃等,2017):

(1)从描述性推论到因果推论

(2)更多非结构化特征分析

(3)从低频文本信息到高频文本信息

(4)从单模分析到多源、多模态数据分析


国内外顶刊发表的论文指标来源日渐丰富,掌握高效的数据处理方法,是公共管理研究者必备的基础技能,为解决政策研究者在处理数据时常遇到的问题及更好的匹配优质期刊的要求,特开发本课程:


1.1课程目标:掌握政策文本挖掘、机器学习核心知识点和分析思路


1.2适合对象:有政策文本分析需求的硕博生及高校老师


1.3 课程特点:

易理解:以政策研究类学者需求为导向,通俗易懂,9个案例场景讲解

可复制:提供可重复使用的代码块和案例数据(包括政府工作报告数据和货币政策执行报告等),可满足学员大部分科研需求

长期回放:采取腾讯会议直播形式,录播会上线“皮皮侠学院”供学员长期回放(至少2月)

全程答疑:课程期间老师会在答疑群就课程相关问题进行答疑

赠6小时Python基础课:该门课程会在7月16日-7月17日直播,有需要也可观看Python基础

►►►

课程内容

模块一:词频统计&可视化 3小时

1、政策文本分析应用简介

2、中文英文分词及关键词提取

3、中英文词频统计&词云图

Case1:Hamlet英文文本词频统计

Case2:国务院政府工作报告词性标注、词频统计

Case3:2021年国务院政府工作报告词云可视化

4、Case4:注意力构建&热力图——基于2001-2021年省级政府工作报告


模块二:机器学习&政策文本 3小时

1、机器学习与政策文本分析

2、文本数据清洗与向量化

3、Case1:中国人民银行货币政策执行报告文本情绪计算

4、Case2:TFIDF“五位一体”建设注意力测算(政治、经济、文化、社会、生态)

5、Case3:各省2001-2021政策文本连续性(相似性)比对

6、Case4:政策文本分类算法

7、Case5:基于LDA模型的政策文本挖掘


没有Python基础,免费赠送课程内容


模块一:Python基础(7月16日09:00-12:00)

01.环境配置与Anaconda Markdown语法
02.Python语言:语法、注解、保留字、变量
03.数据类型——数字&字符串(变量类型设置)
04.数据类型——布尔值&运算符
05.数据类型——数组(列表、元组、集合、字典)
06.条件语句(if else)
07.循环语句和异常处理(for & while & try except)
08.强大的匿名函数lambda 函数
09.迭代计算-列表推导式
10.Python数据科学:包、模块、类、函数
11.Python标准库re模块(正则表达式库)
12.Python标准库os模块(效率神器)
13.Python标准库csv模块
14.Case1 上市公司文本信息数据指标清洗
15.Case2 处理海量不同格式文件


模块二:面板数据构建(7月17日09:00-12:00)

01.Pandas、Numpy介绍
02.重复值、缺失值、“0”值、异常值处理
03.数据表记录(行)与字段(列)处理
04.多重索引、排序、重置数据(stack、melt)
05.分组计算(groupby、transform)
06.计量常用统计量(分组均值、移动平均值、方差、标准差)
07.表格批操作(apply、agg)
08.数据透视表(pivot_table)
09.表格文本数据处理、匹配(extractal)
10.数据拼接、合并(匹配)
11.时间序列处理
12.Case1 A股上市公司年龄、距离等指标构建
13.Case2 上市公司高管团队异质性指标构建
14.Case3 高铁开通标准面板数据构建
15.Case4 城市宏观数据匹配上市公司微观数据
16.Case5 全球各国2002-2020年贸易竞争力指数构建

主要参考文献

[1]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论,2021.

[2]任弢,黄萃,苏竣.公共政策文本研究的路径与发展趋势[J].中国行政管理, 2017, 000(005):96-101.

李晓溪,杨国超,饶品贵.

[3]申伟宁, 柴泽阳, 张韩模. 异质性生态环境注意力与环境治理绩效--基于京津冀《政府工作报告》视角[J].软科学,2020,34(9):7.

[4]陈诗一,陈登科.雾霾污染、政府治理与经济高质量发展[J].经济研究,2018,53(02):20-34.

[5]姜富伟,胡逸驰,黄楠.央行货币政策报告文本信息、宏观经济与股票市场[J].金融研究,2021,(06). 

[6]Bian S , Jia D ,  Li F , et al. A New Chinese Financial Sentiment Dictionary for Textual Analysis in Accounting and Finance[J]. Social Science Electronic Publishing.

[7]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, The Review of Financial Studies,2020.



►►►

课程组织

课程时间

拟定于7月30日,课程完成后录播会尽快上传“皮皮侠学院”供学员长期回放(至少2月)学习。

课程费用

原则上定价688/人,可按照实际支付金额开具发票,明目“数据采集费”“技术咨询费”等,同时接受高校客户集体报名。

会员购买可享受八折优惠(非会员转发本推送到朋友圈2小时并积攒30可8折优惠),购买前请找客服获取优惠码


扫码即可付费

售后服务

在课程未开始前,接受“7天无理由退款”;由于是知识付费,一旦课程开始,不接受退款。


答疑群

购买后请添加微信号(ppman008)邀请您进入课程答疑群,关于项目与报名如有问题,也请咨询ppman008。

【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读16
粉丝0
内容2.1k