

网络爬虫简介

曼昂网络爬虫

2015-09-11

导读：网络爬虫，又称网络蜘蛛，网络机器人，是一种从互联网自动抓取数据的软件程序；其主要依据HTTP协议，基于网络之间的互联关系，从很少的起始数据URL开始可以访问到更多相关的数据页面

网络爬虫，又称网络蜘蛛，网络机器人，是一种从互联网自动抓取数据的软件程序；其主要依据HTTP协议，基于网络之间的互联关系，从很少的起始数据URL开始可以访问到更多相关的数据页面。根据用途，可以分为通用爬虫、定向爬虫，其中通用爬虫基于全网互联的基本理论，从很少的几个URL一直的采集下去，可以抓取到互联网上所有的页面数据，在数据抓取的过程中不需要筛选过滤，该类爬虫主要用于通用搜索引擎的数据抓取，比如百度、Google、搜狗等提供全网内容搜索的搜索引擎。定向爬虫主要是指采集指定网站指定页面的指定内容的网络爬虫，是在人为识别的基础上进行数据的抓取，该类爬虫针对性很强，获取的数据也最能符合要求，使用该类爬虫的主要有网络文件资源搜集、分类信息的应用，比如迅雷的狗狗搜索、今日头条、酷讯搜索等。

典型的网络爬虫逻辑

【声明】内容源于网络

曼昂网络爬虫

我们是程序员开发者联盟，利用业余时间提供网络爬虫软件定制、微站、H5、网站等各类软件开发服务，有意者请留言！

内容 96

粉丝 0

曼昂网络爬虫我们是程序员开发者联盟，利用业余时间提供网络爬虫软件定制、微站、H5、网站等各类软件开发服务，有意者请留言！

总阅读103

粉丝0

内容96