大数跨境

【实用技巧】如何在任务中断的前提下继续采集数据—智能模式篇

【实用技巧】如何在任务中断的前提下继续采集数据—智能模式篇 后羿采集器
2022-06-10
1
导读:本文章为大家介绍智能模式中如何在任务中断的前提下继续采集数据。


在采集的过程中,我们可能会遇到异常停止的情况,如果我们希望再一次启动任务时从上一次停止的位置开始采集,我们需要使用断点续采的功能。


由于各种因素,自动断点续采这个功能现在暂时还无法实现,接下来为大家介绍智能模式中如何在任务中断的前提下继续采集数据。


1、通过去重功能来进行断点续采

直接在启动任务时进行数据去重设置,选择“当所有字段都重复时,跳过继续采集”。

该方案设置简单,但是效率较低,设置之后任务仍然会从第一页开始采集,然后逐个跳过所有已经采集到的数据。

2、通过修改采集范围、修改网址或添加预操作来进行断点续采
当任务停止时,软件的停止界面上会记录当前任务采集到最后一条时的网址和翻页次数,一般情况下,停止网址是准确的,但是翻页次数可能会大于真实的数值,因为如果发生页面卡住的情况会有空翻页的次数。
大家可以使用这两个数值作为断点续采的参考依据。

1)修改采集范围(适用于智能模式)
第一步:复制采集停止的网址,参考翻页次数,找到准确的翻页次数;
第二步:智能模式中直接设置采集范围的起始页数值为第一步中的翻页次数。


2)修改网址或添加预操作
一般可以可以分为以下几种情况:
①网址会随着页码的变动而变动的网站(适用于智能模式或流程图模式)
如这种:
http://www.houyicaiji.com/?type=list&cat_id=148&page=1
http://www.houyicaiji.com/?type=list&cat_id=148&page=2
http://www.houyicaiji.com/?type=list&cat_id=148&page=3
http://www.houyicaiji.com/?type=list&cat_id=148&page=…..
这种情况下假设我们采集到第4页时断掉了,我们可以直接复制第4页的网址,然后在原任务中修改网址,然后重新采集。
【温馨提示】如果之前采集到的数据需要保留则不要点击清空数据。

如果是网址不会随着页码的变动而变动的网站,则需要用到流程图模式进行断点续采。具体的步骤请参考流程图模式篇文章的介绍。

如果您在采集过程中遇到问题,可以联系我们的微信客服进行咨询哦~

【声明】内容源于网络
0
0
后羿采集器
新一代智能网页采集软件,小白神器,无需配置采集规则,免费导出采集结果无数量限制。
内容 6
粉丝 0
后羿采集器 新一代智能网页采集软件,小白神器,无需配置采集规则,免费导出采集结果无数量限制。
总阅读0
粉丝0
内容6