大数跨境
0
0

架构案例之爬虫框架

架构案例之爬虫框架 云容灾备份安全治理
2025-05-26
2
导读:架构案例之爬虫框架Scrapy 是用 Python 开发的快速、高层次的屏幕抓取和 Web 抓取框架 ,用于从
架构案例之爬虫框架
Scrapy 是用 Python 开发的快速、高层次的屏幕抓取和 Web 抓取框架 ,用于从网站提取结构化数据,可用于数据挖掘、监测、自动化测试等领域。
以下是其相关介绍:
架构组件 
- Scrapy Engine(引擎)
- Scheduler(调度器) 
- Downloader(下载器)
- Spider(爬虫)
- Item Pipeline(项目管道)
- Downloader Middlewares(下载中间件) 
- Spider Middlewares(爬虫中间件)
工作流程 
1. 初始请求:Spider 生成初始 Request 发送给引擎,引擎转发给调度器。 
2. 请求调度:调度器管理请求队列,按规则将请求给引擎,引擎再转给下载器。 3. 页面下载:下载器依据请求获取网页内容,经下载中间件处理后,将 Response 返回给引擎,引擎交给 Spider。 
4. 数据提取:Spider 解析 Response,提取数据生成 Item,将 Item 给 Item Pipeline,同时把需跟进的 URL 生成新 Request 返回引擎,重复流程。 
5. 数据处理:Item Pipeline 对 Item 依次处理,如清洗、存储 。
异步 I/O(Asynchronous I/O)是一种能让程序在等待 I/O 操作完成期间,继续执行其他任务的编程技术 ,核心基于非阻塞 I/O 操作。其原理及流程如下: 
- 发起请求:程序告知操作系统要执行某个 I/O 操作,如读取文件、发送网络请求等。 
- 不阻塞执行:请求发出后,程序不会停下来等待操作结束,而是马上继续执行后续代码、处理其他任务。 
- 操作系统处理:操作系统将 I/O 请求排入队列并进行处理,处理结果存于缓冲区。 
- 事件通知或回调 :I/O 操作完成时,操作系统通过事件循环通知程序(事件通知) ;或者程序提前注册的回调函数被调用,以此来处理 I/O 操作结果。 
- 结果处理:程序获取 I/O 操作结果并处理,之后可继续下一步任务或发起新异步 I/O 请求

【声明】内容源于网络
0
0
云容灾备份安全治理
分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
内容 2171
粉丝 0
云容灾备份安全治理 分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
总阅读4.9k
粉丝0
内容2.2k