第一章 采集配置

采集设置

采集设置是指包括采集速度配置、采集策略配置、任务装载配置、网络超时配置、http设置、加载设置、任务模式配置、任务定时配置和过滤设置等九大模块的配置。下面进行分别介绍:

注意:采集设置可以设置采集过程中的策略和参数。如果无需更改策略,可以跳过这个步骤。

一. 采集速度

采集速度是调节任务采集快慢的一项设置,对采集速度的影响包括线程数目和采集间隔。

1.线程数目

线程数目是运行采集任务时,软件启用的线程资源数目。线程数目越大,采集速度越大。

2.采集间隔

是指任务采集的速度快慢。用户可以直接滑动按钮进行设置采集速度,也可以直接填写采集间隔的时间数。

二. 采集策略

根据记录的采集日志,选择下次采集任务的采集策略。

【采集策略】

1.采集策略

在不清除日志的情况下,下次任务采集按照设定的思路进行采集。包括如下:

序号 菜单内容 描述
1 自定义 可以自由选择任意装载策略。
2 增量采集 不再重采数据页面,只重采全部链接页面,以增量更新网站新增加的链接内容。
3 继续上次采集 继续上次终止时的任务进行采集,保证不重复采集任务。
4 全部重采 从头开始重新采集,自动清除全部日志。
2.装载策略

选择装载到日志列表的内容,即历史数据。含义如下:

序号 采集策略 描述
1 全部装载 全选下列全部装载策略。
2 任务装载地址 重新扫描网站的入口地址,适用于入口地址有变动的情况。
3 入库失败 重新采集上次任务中,数据入库失败的任务。
4 上次未采集 重新采集上次未采集的任务。
5 采集错误 重新采集上次发生采集错误的任务。
6 采集正确 重新采集上次采集正确的任务。
7 链接页面 重新采集任务中全部的链接页面。
8 数据页面 重新采集任务中全部的数据页面。
9 任务已删除 继续采集上次任务采集过,但属于采集已经删除的任务。
10 任务关闭 继续采集上次任务采集过,但属于采集已经关闭的任务。
3.采集阈值

阈的意思是界限,故阈值又叫临界值,是指一个效应能够产生的最低值或最高值采集阈。

此处采集阈值即每个任务的上限,可以根据自己的需要设置,此处设置属于全局设置。

三. 任务装载
1.任务装载顺序

设置采集过程中,日志列表中对于各任务排列的顺序。

①顺序优先:按照采集任务列表的顺序,采集各列表任务的数据。

②负载均衡:打乱任务采集顺序,同时采集各任务的数据链接。优点是可以降低被网站封锁IP的风险,同时可以提高采集效率。

2.新任务装载方式

新采集任务是否同步装载。即用户可以选择对新采集任务进行同步装载也可以选择异步装载。

①同步:同步装载是指将所有链接加载完成之后同时采集。

②异步:异步装载是指加载一部分链接采集一部分,不需要全部加载完成之后再采集。

3.运行列表排重

勾选可对运行列表中的采集任务进行排重,减少运行工作量,提高运行效率。

四. 网络超时

【网络超时】

1.接收超时

当对方服务器繁忙时,可将接收超时的时间调大,否则软件在超时后将不再接收该链接地址的数据。

2.发送超时

当采集的数据量过大时,可以将发送超时的时间调大。

3.重试次数

网络连接失败后重新连接的次数。网络状态不稳定时,可以将重试次数调大。

五. http设置

【http设置】

1.模拟浏览器版本

模拟不同版本的浏览器。当采集预览或内置浏览器无法打开某网站时,如果是由于内置浏览器的版本造成的,可以在此更改模拟浏览器的版本。(重启软件生效)

2.重定向重试次数

网站重定向的重试次数。

六. 加载设置

【加载设置-JavaScript】

1.加载设置
①禁用JavaScript

【加载设置--完全禁用JavaScript】

对于有些网页,JavaScript只用于美观效果,可以关闭JavaScript,会加快采集速度。

在这里设置的为全局的禁用JavaScript。

一般在配置时选择完全禁用。

当选择禁用禁用JavaScript时,对于js脚本采集时就不解析了,直接跳过。

②完全不禁用JavaScript

【加载设置--完全不禁用JavaScript】

完全不禁用即启用JavaScript,可以启用JavaScript的相关方法。

在这里设置的为全局的完全不禁用JavaScript。

③不禁用当前页面

【加载设置--不禁用当前页面】

不禁用当前页面中的当前页指Script标签里面的js,其中不包括src=xxx.js。

在这里设置的为全局的不禁用当前页面。

2.禁用SSL协议(https)

不使用https协议。

七. 任务模式

【任务模式】

启动/停止方式:可以在这里选择手动启动还是自动启动/停止任务。

【数据采集】

1.启动方式选择手动,则只能手动点击开始按钮。

2.停止方式选择手动则需要手动停止采集,如果数据采集完后爬虫也不会自己停止,只能手动点击停止按钮。

八. 任务定时

【任务定时】

定时启动:用户可以通过任务定时,进行自动启动/停止采集。可以选择间隔某个时间段后进行采集。

九. 过滤设置

通过设置采集的任务量大小、采集文件大小和文件类型,使软件采集到某种任务状况时可以自动停止。

【过滤设置-采集文件大小下限】

1.采集文件大小下限

可以设置一个阈值,在采集量达到阈值时采集自动停止。

2.采集文件大小阈值

可以设置一个采集文件大小的阈值,当文件大小超过阈值时不予采集该文件,通过设置阈值可以有效过滤超大文件,网页中不需要的超大文件将不予采集。

3.采集文件类型列表

在这里选择需要的文件类型,选中的文件类型将会被采集下来。不予选择的类型将在采集时被过滤。