网络爬虫,又称网络蜘蛛,网络机器人,是一种从互联网自动抓取数据的软件程序;其主要依据HTTP协议,基于网络之间的互联关系,从很少的起始数据URL开始可以访问到更多相关的数据页面。根据用途,可以分为通用爬虫、定向爬虫,其中通用爬虫基于全网互联的基本理论,从很少的几个URL一直的采集下去,可以抓取到互联网上所有的页面数据,在数据抓取的过程中不需要筛选过滤,该类爬虫主要用于通用搜索引擎的数据抓取,比如百度、Google、搜狗等提供全网内容搜索的搜索引擎。定向爬虫主要是指采集指定网站指定页面的指定内容的网络爬虫,是在人为识别的基础上进行数据的抓取,该类爬虫针对性很强,获取的数据也最能符合要求,使用该类爬虫的主要有网络文件资源搜集、分类信息的应用,比如迅雷的狗狗搜索、今日头条、酷讯搜索等。

典型的网络爬虫逻辑

