大数跨境
0
0

硬核实战!文本分析、Python计量课程、爬虫课程-提供模型数据 即学即用!

硬核实战!文本分析、Python计量课程、爬虫课程-提供模型数据 即学即用! 数据皮皮侠
2022-03-13
0
导读:皮皮侠课程


科研实战训练营-文本分析

文本资料丰富了社科研究的数据来源,屡有基于文本分析的论文在国内外顶刊发表,为解决大家在处理文本数据时常遇到的错误及更好的匹配优质期刊的要求,特开发本课程:


易理解:以经管学术需求为导向, 知识点力求通俗易懂,多使用场景和实战讲解

可复制: 提供可重复使用的代码块和案例数据(包括上市公司年报和政府工作报告数据)


文本分析



课程内容


Part1:文本分析在社科研究的应用

Part2:文本分析基本方法

Part3:Python相关语法
(1)Jieba分词、关键词提取、词频统计
语法部分、Hamlet文本词频统计、三国演义人物出场次数分析

(2)词云制作——Wordcloud库
语法部分、40万脱口秀弹幕文本数据词云

(3)PDF提取文本——OCR识别

Part4:实战案例
Case1:省市各领域注意力指数构建
——基于2005-2021年政府工作报告

Case2:上市公司年报语调测度
——基于2001-2020上市公司年报




报名方式

扫码小鹅通
进入小程序搜索:文本分析


2)私聊002拉你进答疑群




Python计量特训营录播课程

Python在社会科学前沿研究中应用案例


-Python让你在大数据处理和实证模型理解上有质的飞跃

-前沿论文实证案例助你拥有高水平实证论文能力

-多位老师全程互动答疑,保证你学懂每个知识点



Python计量课程内容大纲

Python与stata的比较及优势

A:两者比较;

B:Python的优势展现


数据处理:Python的数据处理

A:数据清洗和整理技巧

B:如何处理大批量数据


一图胜千言,Python的科研作图案例

A:Matplotlib库及案例展示

B:Seaborn库及案例展示


应用篇:系统性学习数据处理、

面板回归、稳健性检验、内生性检验

中介效应IV、安慰剂检验方法

让你快速学会论文写作规范流程



理论:Python的计量模型应用
A:计量面板模型及扩展
B:计量DID模型及前沿
实战:中文top5,最新经管论文结果重现
A:论文一:数据、模型及Python代码;
论文题目:金融投资行为与企业技术创新(2021)

B:论文二:数据、模型及Python代码;
论文题目:扶贫改革试验区的经济增长效应及政策有效性评估(2019)


讲师介绍

Miroslav 

毕业于UW-Madison

全美Top30的经济学专业

擅长Python数据分析、计量经济学、

图像处理、机器学习等


研究方向为Heterogeneous Treatment Effect Estimation


报名方式

扫码小鹅通
进入小程序搜索:Python计量课程


2)私聊002拉你进答疑群




Python爬虫训练营


提供爬虫代码、海量爬虫数据


Python爬虫训练营


课程特色


1)课程内容对新手友好,一定程度上课程内容是自包含的,就算是萌新也能快速上手!
2)掌握自动生成爬虫代码工具(postman)。
3)非结构化数据获取和结构化数据获取
4)详细介绍多渠道获取数据的方式,以网页端数据和小程序数据为例。
5)详细介绍如何通过数据接口逻辑漏洞获取数据。
6)详细介绍多种反爬技巧,以如何避开网站登录以及selenium半自动爬取为主要内容。
7)以实践案例为引导。在例子中穿插爬虫理论,边用边学,学以致用。
8)详细介绍爬虫应用中的前沿工具,如fiddler


课程目标


科研数据的顶端也是学术的顶端
从0到1学会Python爬虫:掌握爬虫基本理论,理解并能够熟练运用Python相关的爬虫库,并且能够用于经管研究的数据采集工作。(对于没接触Python的人,附赠6学时Python基础课)
扩展实证研究数据视野:手把手全面的案例教学,以爬虫技术获取Web大数据,让一切Web数据触手可及,扩宽社科实证研究范围,让实证研究在数据、方法和视角上具有突破和创新。
多渠道寻找数据的能力:教会如何获取数据的途径和方法,多渠道多工具精准寻找数据接口。掌握如何检测接口的可用性以及如何寻找接口漏洞获取尽可能多的纬度数据。
掌握前沿爬虫方法,并学会使用数据库存储爬虫数据。


课程基础


• IDE编辑器:pycharm的应用
• 爬虫涉及相关Python库介绍
• 请求库:request
• 解析库:lxml、scrapy.Selector
• 数据解析:xpath语法
• 调试工具:xpath helper插件介绍
• 数据存储:excel/csv, 文档数据库mongodb
• 抓包方式介绍:浏览器开发者工具
• 抓包工具介绍:fiddler
• 爬虫工具的介绍:selenium


实战案例


提供代码和爬取数据


一、糗事百科:以此案例系统讲授python爬虫的理论和具体操作,涉及到文本数据和非结构化数据的处理,网站:
https://www.qiushibaike.com/text/。

二、铁公基信息网:该案例的主要内容是获取该网站上所有关于铁路、公路和基建招投标数据。该网站上所包含数据是交通经济研究的重要数据。网站网址为:
http://www.gonglutielu.com/ (微信公众号)。

三、农批数据/新农村商网该案例是爬虫微信端口一个事实记录新农商网的农村品价格数据,可以实时获取全样本农产品的价格数据,网站: 
https://nc.mofcom.gov.cn/ (微信小程序/小程序)。

四、船讯网:该案例的主要内容是通过分布式爬虫技术获取全球所有船只的航行轨迹数据,包括垂直领域和非垂直领域的数据。网站:http://www.shipxy.com/。


导师介绍


刘航远

python开发大牛-7年从业经验


项目经历

全球顶尖智库

大数据平台开发

船讯港口数据库

工商企业数据库

新闻资讯数据库

国家电网数据库

北京国务院发展研究中心

国内外电商数据智能分析系统

北京国研网信息股份有限公司

宁波三星医疗电气股份有限公司


报名方式

扫码小鹅通
进入小程序搜索:Python爬虫训练营


2)私聊002拉你进答疑群





【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读16
粉丝0
内容2.1k