大数跨境
0
0

爬虫实战:利用软件采集招聘信息(一)

爬虫实战:利用软件采集招聘信息(一) 数据皮皮侠
2019-09-11
2
导读:爬虫实战:利用软件采集招聘信息(一)(基于八爪鱼和后羿采集器软件——简易模式采集)一、什么是爬虫 网

爬虫实战:利用软件采集招聘信息(一)

(基于八爪鱼和后羿采集器软件——简易模式采集)




一、什么是爬虫

     网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫(百度复制粘贴内容^^)。

     说白了,爬虫就是利用工具抓取网页上的内容(数据、文本、图片等),是不是感觉写论文找数据不止翻年鉴了......爬虫工具除了python等编程语言(手写的代码),还有就是通过一些第三方软件来采集(如八爪鱼、后羿采集器、火车头采集器等等很多)。至于通过自己写代码的方式会在以后文章中介绍,本文从基础介绍利用软件傻瓜式爬虫,这种方式已经可以满足大部分采集需求,而且只需拖拉拽还不简单吗。


二、后羿采集器和八爪鱼介绍

    这两款采集器是作者认为市面上相对最好用的两款采集软件。后羿采集器是由前谷歌搜索技术团队基于人工智能技术研发的新一代网页采集软件,该软件功能强大,操作简单,可谓是居家旅行随身神器。八爪鱼大数据采集平台是深圳视界信息技术有限公司自主研发,整合了网页数据采集、移动互联网数据及API接口服务(包括数据爬虫、数据优化、数据挖掘、数据存储、数据备份)等服务为一体的数据服务平台,连续4年蝉联互联网数据采集软件榜单第一名。两款软件的采集模式基本相同,主要有两种:智能模式采集或简易采集、自定义模式采集。本期主要介绍智能模式采集或简易采集


三、简易模式

(1)后羿采集器

      软件下载网址:http://www.houyicaiji.com/,至于软件如何安装,就是一直下一步呗。

      后羿采集器的智能模式采集只需要将你要爬取的页面放入网址框内,软件会自动识别出你可能需要爬取的内容。直接上例子,比如你要爬取某高校的就业网招聘信息(以北京大学为例),北京大学就业指导服务中心的网址为https://scc.pku.edu.cn/home!recruitList.action?category=1(我也不知道后面你看到的时候是否失效、有没有反爬虫,反正我可以用,我可以用,我可以用)。


1.打开软件并选择智能模式

2.在右边方框输入爬取网址

3.点击下方立即创建后,可以看到软件自动识别需要爬取的内容

4.点击开始采集和启动,软件将会自动采集当前页面信息,并翻页。


5.软件正在爬取......(注意:由于没有选择深度爬取,只会抓取当前页面,而不会进入链接里面抓取具体信息

6.由于内容较多,作者选择强制结束。最后导出文件,可以选择导出excel格式。

7.最终excel数据如下

(2)八爪鱼

  软件下载网址:https://www.bazhuayu.com/。八爪鱼的简易更加方便,软件自带了非常多的常用网站和数据模板,如下图:

     

       例如,要抓取百姓网的招聘信息,在百姓网中选择好需要爬取的职位,复制链接(以https://chengdu.baixing.com/kuaiji/?src=subCategory为例)。

1.点击百姓网模板,并选择点击采集

2.输入网址、翻页次数

3.选择启动本地采集

4.可以看到正在爬取数据

5.最终爬取的数据可以导出



       以上便是本期内容:关于后羿采集器和八爪鱼采集器的简易模式采集。下期将推送流程图式或自定义式如何采集数据。


       最后!!!!!!送出彩蛋,解决前文使用后羿采集器时提到的由于没有选择深度爬取,只会抓取当前页面,而不会进入链接里面抓取具体信息这一问题。

       因为抓取的数据只是每个连接的标题,所以需要进入链接爬取里面的内容,后羿采集器提供了“深度采集”这一功能,意思就是可以进入链接采集。在这里:

       点击“深度采集”会进入页面,这就是最外层链接里面的内容。此时下面会抓取本页面的内容。点击开始采集便可以采集每个标题链接里面的内容。





欢迎关注(数据皮皮侠)

【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读2.6k
粉丝0
内容2.1k