

网络爬虫工作原理

曼昂网络爬虫

2015-09-13

导读：互联网实际上就是一张由节点和边线连成的图，把每一个网页看成一个节点，把那些超链接看成连接网页的弧

互联网实际上就是一张由节点和边线连成的图，把每一个网页看成一个节点，把那些超链接看成连接网页的弧。许多读者可能已经注意到，网页中那些蓝色的、带有下划线的文字背后实际上藏着对应的网址，当你点下去的的时间，浏览器是通过这些隐含的网址转到相应的网页中的。这些隐含在文字背后的网址称为“超链接”。有了超链接，我们可以从任何一个网页出发，用图的遍历算法，自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫，或者在一些文献中称为"机器人"（Robot)。世界上第一个网络爬虫是由麻省理工学院 (MIT)的学生马休.格雷（Matthew Gray)在 1993 年写成的。他给他的程序起了个名字叫“互联网漫游者”("www wanderer")

一个典型的网络爬虫工作流程如下：

首先从互联网页面中精心选择一部分网页，以这些网页的链接地址作为种子URL，作为网络爬虫访问互联网的起点。
网络爬虫有一个待抓取URL队列，将选择的种子URL放入待抓取URL队列中。
爬虫从待抓取URL队列依次读取，并将URL通过DNS解析，把链接地址转换成网站服务器对应的IP地址。
网页下载器将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。这个队列记载了爬虫系统已经下载过的页面URL，以避免网页重复抓取。
对于刚下载的页面，从中抽取所包含的所有链接信息，并在已抓取URL队列中检查，如果发现链接还没有被抓取过，则将这个URL放入待抓取URL队列末尾，形成循环，直到待抓取URL队列为空。

【声明】内容源于网络

曼昂网络爬虫

我们是程序员开发者联盟，利用业余时间提供网络爬虫软件定制、微站、H5、网站等各类软件开发服务，有意者请留言！

内容 96

粉丝 0

曼昂网络爬虫我们是程序员开发者联盟，利用业余时间提供网络爬虫软件定制、微站、H5、网站等各类软件开发服务，有意者请留言！

总阅读44

粉丝0

内容96