搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
首页
>
架构案例之爬虫框架
>
0
0
架构案例之爬虫框架
云容灾备份安全治理
2025-05-26
2
导读:架构案例之爬虫框架Scrapy 是用 Python 开发的快速、高层次的屏幕抓取和 Web 抓取框架 ,用于从
架构案例之爬虫框架
Scrapy 是用 Python 开发的快速、高层次的屏幕抓取和 Web 抓取框架 ,用于从网站提取结构化数据,可用于数据挖掘、监测、自动化测试等领域。
以下是其相关介绍:
架构组件
- Scrapy Engine(引擎)
- Scheduler(调度器)
- Downloader(下载器)
- Spider(爬虫)
- Item Pipeline(项目管道)
- Downloader Middlewares(下载中间件)
- Spider Middlewares(爬虫中间件)
工作流程
1. 初始请求:Spider 生成初始 Request 发送给引擎,引擎转发给调度器。
2. 请求调度:调度器管理请求队列,按规则将请求给引擎,引擎再转给下载器。 3. 页面下载:下载器依据请求获取网页内容,经下载中间件处理后,将 Response 返回给引擎,引擎交给 Spider。
4. 数据提取:Spider 解析 Response,提取数据生成 Item,将 Item 给 Item Pipeline,同时把需跟进的 URL 生成新 Request 返回引擎,重复流程。
5. 数据处理:Item Pipeline 对 Item 依次处理,如清洗、存储 。
异步 I/O(Asynchronous I/O)是一种能让程序在等待 I/O 操作完成期间,继续执行其他任务的编程技术 ,核心基于非阻塞 I/O 操作。其原理及流程如下:
- 发起请求:程序告知操作系统要执行某个 I/O 操作,如读取文件、发送网络请求等。
- 不阻塞执行:请求发出后,程序不会停下来等待操作结束,而是马上继续执行后续代码、处理其他任务。
- 操作系统处理:操作系统将 I/O 请求排入队列并进行处理,处理结果存于缓冲区。
- 事件通知或回调 :I/O 操作完成时,操作系统通过事件循环通知程序(事件通知) ;或者程序提前注册的回调函数被调用,以此来处理 I/O 操作结果。
- 结果处理:程序获取 I/O 操作结果并处理,之后可继续下一步任务或发起新异步 I/O 请求
【声明】内容源于网络
0
0
云容灾备份安全治理
分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
内容
2171
粉丝
0
关注
在线咨询
云容灾备份安全治理
分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
总阅读
4.9k
粉丝
0
内容
2.2k
在线咨询
关注