ForeSpider采集策略配置

采集策略配置

对采集过程的采集策略、任务设置、网络设置和IP代理进行配置。

一.采集策略

【采集策略配置窗口】

1.线程数目

系统支持多线程采集,多线程可以提高系统运行效率。在菜单栏“设置”的“采集策略配置”中,“线程数目”用于调整采集的速度。在计算机配置的允许范围之内,线程数目填写的越多,采集速度越快。用户可以根据本机的任务管理器,结合CPU和内存占用率,调整开启的线程数目。


2.采集策略

系统支持多种采集策略,以满足不同的采集需求。

采集策略包括:

序号 菜单内容 描述
1 不重采数据页面 对于已经采集过的数据页面不再进行采集
2 更新数据页面 对于已经采集过的数据页面进行更新
3 继续上次采集 继续上次终止时的任务进行采集
4 全部重采 从头开始重新采集,之前的采集日志会全部删除
5 只扫描入口页 只扫描数据入口页,不扫描中间页和数据页(详细页)

(“默认”指“继续上次采集”。)


3.历史日志装载策略

选择装载到日志列表的内容,即历史数据。系统支持装载时选择不同策略。

策略如下:

序号 装载策略 描述
1 全部装载 装载全部采集内容。
2 装载频道 仅装载频道内的采集内容。
3 未入库 仅装载未存入数据库的采集内容。
4 未采集 仅装载未采集成功的采集内容。
5 采集错误 仅装载发生采集错误的采集内容。
6 采集正确 仅装载采集正确的采集内容。

4.定时任务

可以开启定时采集任务,进行自动采集。可以选择定于具体某个时刻进行采集,也可以选择间隔某个时间段后进行采集。



二.任务设置

通过设置采集的任务量大小、采集文件大小和文件类型,使软件采集到某种任务状况时可以自动停止。

【任务设置】

1.采集任务量阈值

可以设置一个阈值,在采集量达到阈值时采集自动停止。

2.采集文件大小阈值

可以设置一个采集文件大小的阈值,当文件大小超过阈值时不予采集该文件,通过设置阈值可以有效过滤超大文件,网页中不需要的超大文件将不予采集。

3.采集文件类型列表

在这里选择需要的文件类型,选中的文件类型将会被采集下来。不予选择的类型将在采集时被过滤。



三. 网络配置

在这里配置网络的接收和发送超时。

【网络配置】

1.超时设置

(1)接收超时:当对方服务器繁忙时,可将接收超时的时间调大,否则软件在超时后将不再接收该链接地址的数据。

(2)发送超时:当采集的数据包过大时,可以将发送超时的时间调大。

2.加载项设置

(1)禁用JavaScript:采集数据时,不执行JavaScript。

(2)禁用SSL协议(https):采集数据时,不执行SSL协议。



四.IP代理配置

启用IP代理采集时,需要进行代理配置。

【IP代理配置】

1.启用IP代理

需选中“启用IP代理”,才能启用IP代理功能。

2.启用代理加速

启用代理加速后,可以在采集过程中自动筛选无效和低效率的代理IP,优先使用高效的代理,提升采集的效率和数据质量。

3.系统代理IP列表

在列表中选中的的代理即可在采集时启用。