

架构案例之爬虫框架

云容灾备份安全治理

2025-05-26

导读：架构案例之爬虫框架Scrapy 是用 Python 开发的快速、高层次的屏幕抓取和 Web 抓取框架，用于从

架构案例之爬虫框架

Scrapy 是用 Python 开发的快速、高层次的屏幕抓取和 Web 抓取框架，用于从网站提取结构化数据，可用于数据挖掘、监测、自动化测试等领域。

以下是其相关介绍：

架构组件

- Scrapy Engine（引擎）

- Scheduler（调度器）

- Downloader（下载器）

- Spider（爬虫）

- Item Pipeline（项目管道）

- Downloader Middlewares（下载中间件）

- Spider Middlewares（爬虫中间件）

工作流程

1. 初始请求：Spider 生成初始 Request 发送给引擎，引擎转发给调度器。

2. 请求调度：调度器管理请求队列，按规则将请求给引擎，引擎再转给下载器。 3. 页面下载：下载器依据请求获取网页内容，经下载中间件处理后，将 Response 返回给引擎，引擎交给 Spider。

4. 数据提取：Spider 解析 Response，提取数据生成 Item，将 Item 给 Item Pipeline，同时把需跟进的 URL 生成新 Request 返回引擎，重复流程。

5. 数据处理：Item Pipeline 对 Item 依次处理，如清洗、存储。

异步 I/O（Asynchronous I/O）是一种能让程序在等待 I/O 操作完成期间，继续执行其他任务的编程技术，核心基于非阻塞 I/O 操作。其原理及流程如下：

- 发起请求：程序告知操作系统要执行某个 I/O 操作，如读取文件、发送网络请求等。

- 不阻塞执行：请求发出后，程序不会停下来等待操作结束，而是马上继续执行后续代码、处理其他任务。

- 操作系统处理：操作系统将 I/O 请求排入队列并进行处理，处理结果存于缓冲区。

- 事件通知或回调：I/O 操作完成时，操作系统通过事件循环通知程序（事件通知）；或者程序提前注册的回调函数被调用，以此来处理 I/O 操作结果。

- 结果处理：程序获取 I/O 操作结果并处理，之后可继续下一步任务或发起新异步 I/O 请求

【声明】内容源于网络

云容灾备份安全治理

分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理；窥视国内外备份软件与监控软件知识前沿水平线；越努力，越幸运！

内容 2171

粉丝 0

云容灾备份安全治理分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理；窥视国内外备份软件与监控软件知识前沿水平线；越努力，越幸运！

总阅读4.9k

粉丝0

内容2.2k