大数跨境
0
0

网络爬虫工作原理

网络爬虫工作原理 曼昂网络爬虫
2015-09-13
2
导读:互联网实际上就是一张由节点和边线连成的图,把每一个网页看成一个节点,把那些超链接看成连接网页的弧

互联网实际上就是一张由节点和边线连成的图,把每一个网页看成一个节点,把那些超链接看成连接网页的弧。许多读者可能已经注意到,网页中那些蓝色的、带有下划线的文字背后实际上藏着对应的网址,当你点下去的的时间,浏览器是通过这些隐含的网址转到相应的网页中的。这些隐含在文字背后的网址称为“超链接”。有了超链接,我们可以从任何一个网页出发,用图的遍历算法,自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫,或者在一些文献中称为"机器人"(Robot)。世界上第一个网络爬虫是由麻省理工学院 (MIT)的学生马休.格雷(Matthew Gray)在 1993 年写成的。他给他的程序起了个名字叫“互联网漫游者”("www wanderer")


一个典型的网络爬虫工作流程如下:

  1. 首先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL,作为网络爬虫访问互联网的起点

  2. 网络爬虫有一个待抓取URL队列,将选择的种子URL放入待抓取URL队列中。

  3. 爬虫从待抓取URL队列依次读取,并将URL通过DNS解析,把链接地址转换成网站服务器对应的IP地址。

  4. 网页下载器将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。这个队列记载了爬虫系统已经下载过的页面URL,以避免网页重复抓取。

  5. 对于刚下载的页面,从中抽取所包含的所有链接信息,并在已抓取URL队列中检查,如果发现链接还没有被抓取过,则将这个URL放入待抓取URL队列末尾,形成循环,直到待抓取URL队列为空。


【声明】内容源于网络
0
0
曼昂网络爬虫
我们是程序员开发者联盟,利用业余时间提供网络爬虫软件定制、微站、H5、网站等各类软件开发服务,有意者请留言!
内容 96
粉丝 0
曼昂网络爬虫 我们是程序员开发者联盟,利用业余时间提供网络爬虫软件定制、微站、H5、网站等各类软件开发服务,有意者请留言!
总阅读44
粉丝0
内容96