大数跨境
0
0

即将截止-python爬虫直播课程-多份大数据+代码-变身技术大牛!

即将截止-python爬虫直播课程-多份大数据+代码-变身技术大牛! 数据皮皮侠
2021-10-02
1
导读:科研数据爬虫训练营-提供爬虫代码和海量爬虫数据

python

爬虫训练营

提供爬虫代码、海量爬虫数据

2021.10.6-7

大数据时代,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中,网络数据成为各领域学者亟待挖掘的宝库。


对于以经管为代表的人文社科类科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两大问题,即:

(1)从网络世界中高效地采集、整理目标数据。

(2)从纷杂的大数据中获取有价值信息,得到别人所得不到的第一手数据。


为了解决各位学术同仁掌握爬虫技术的需要,皮皮侠经过精心地准备,在中秋佳节之际,推出科研爬虫训练营!让大家节假日也可以在家充电!

课程特色


1)课程内容对新手友好,一定程度上课程内容是自包含的,就算是萌新也能快速上手!

2)掌握自动生成爬虫代码工具(postman)。

3)非结构化数据获取和结构化数据获取

4)详细介绍多渠道获取数据的方式,以网页端数据和小程序数据为例。

5)详细介绍如何通过数据接口逻辑漏洞获取数据。

6)详细介绍多种反爬技巧,以如何避开网站登录以及selenium半自动爬取为主要内容。

7)以实践案例为引导。在例子中穿插爬虫理论,边用边学,学以致用。

8)详细介绍爬虫应用中的前沿工具,如fiddler


讲师介绍:

刘航远

python开发大牛-7年从业经验

项目经历:

北京国务院发展研究中心

-大数据平台开发

北京国研网信息股份有限公司

-船讯港口数据库

-工商企业数据库

-全球顶尖智库

宁波三星医疗电气股份有限公司

-新闻资讯数据库
-国内外电商数据智能分析系统
-国家电网数据库
......


课程大纲

课程目标

科研数据的顶端也是学术的顶端

从0到1学会Python爬虫:掌握爬虫基本理论,理解并能够熟练运用Python相关的爬虫库,并且能够用于经管研究的数据采集工作。(对于没接触Python的人,附赠6学时Python基础课)
扩展实证研究数据视野:手把手全面的案例教学,以爬虫技术获取Web大数据,让一切Web数据触手可及,扩宽社科实证研究范围,让实证研究在数据、方法和视角上具有突破和创新。
多渠道寻找数据的能力:教会如何获取数据的途径和方法,多渠道多工具精准寻找数据接口。掌握如何检测接口的可用性以及如何寻找接口漏洞获取尽可能多的纬度数据。
掌握前沿爬虫方法,并学会使用数据库存储爬虫数据。


课程基础

• IDE编辑器:pycharm的应用

• 爬虫涉及相关Python库介绍

• 请求库:request

• 解析库:lxml、scrapy.Selector

• 数据解析:xpath语法

• 调试工具:xpath helper插件介绍

• 数据存储:excel/csv, 文档数据库mongodb

• 抓包方式介绍:浏览器开发者工具

• 抓包工具介绍:fiddler

• 爬虫工具的介绍:selenium

实战案例,提供代码和爬取数据

一、糗事百科:以此案例系统讲授python爬虫的理论和具体操作,涉及到文本数据和非结构化数据的处理,网站:

https://www.qiushibaike.com/text/。


二、铁公基信息网:该案例的主要内容是获取该网站上所有关于铁路、公路和基建招投标数据。该网站上所包含数据是交通经济研究的重要数据。网站网址为:

http://www.gonglutielu.com/ (微信公众号)。


三、农批数据/新农村商网:该案例是爬虫微信端口一个事实记录新农商网的农村品价格数据,可以实时获取全样本农产品的价格数据,网站: 

https://nc.mofcom.gov.cn/ (微信小程序/小程序)。


四、船讯网:该案例的主要内容是通过分布式爬虫技术获取全球所有船只的航行轨迹数据,包括垂直领域和非垂直领域的数据。网站:http://www.shipxy.com/。


报名方式

上课时间:2021.10.6-7  9:00-12:00、14:00-17:00

1.扫码报名,并截图给皮皮侠002


优惠活动

1)非会员转发至朋友圈,保存2小时

可私聊皮皮侠002返现¥50!

2)会员无须转发,可私聊002返现¥100!


2.支付截图发送给皮皮侠002

回复:课程报名




【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读16
粉丝0
内容2.1k