ForeSpider数据采集操作

数据采集操作

一.连接数据库

用于配置数据存储的服务器和数据库。目前支持两种数据库:

①系统自带数据库ForeLib:默认选项,与系统高度兼容。(默认数据库为系统自带ForeLib)

②MySQL数据库。

③ODBC数据库。

1.连接Forelib数据库

注意:数据路径不能包含空格和“.”。

【连接ForeLib数据库】

2.连接MySQL数据库

用户注意:用MySQL客户端工具配置数据库时,编码须选择UTF-8或者GBK。

【连接MySQL数据库】

3.连接ODBC数据库

【连接ODBC数据库】



二.选择数据表

在“选择数据表”窗口,选择数据存入的数据表名称。在该窗口可以对采集到的数据进行数据表的创建、删除、反建等进行配置操作,对数据表进行正确的配置,以保证采集到的数据能够正确存入数据库中。

【选择数据表】

从爬虫表单列表中选择需要的表单,点击“创建表”。

在数据表列表中选择刚刚创建的表单,点击“确定”,完成数据存储。

【选择数据表单】

如果选择“反建表单”,则会根据数据表列表中的表单创建爬虫表单。



三.采集策略配置

在菜单栏“设置”中的“采集策略配置”中,设置采集的线程数、采集策略、装载策略、定时任务、任务设置和IP代理配置。



四.删除日志

当采集策略选择了“不重采数据页面”、“更新数据页面”、“继续上次采集”时,如果需要重新采集当前任务,需要在“日志管理”界面删除当前的日志记录。

【删除日志记录】

当采集策略选择了“全部重采”、“只扫描入口页”时,系统会自动清除日志记录。



五.关闭不需要采集的频道

当频道列表不止有一个频道时,采集前请检查是否其中包含不需要采集的频道。如果有不需要采集的频道,请关闭“频道是否采集”选项。选择是否采集该频道的数据。频道列表中,该节点及其子节点继承同一属性,可以手动修改子节点属性。

【频道是否采集】



六.数据采集

点击绿色开始按钮,开始进行数据采集;点击蓝色暂停按钮,暂停采集;点击橘色停止按钮,停止采集。