ForeSpider配置采集文件

配置采集文件

以新华网http://www.news.cn/politics/为例,进行操作说明的演示。

一.创建数据表单

1.添加表单

在表单列表中添加“新闻”表单。

【创建表单】

2.添加字段

点击,打开“添加字段”窗口。然后根据自身需求创建字段。 (具体配置方法>>详见

【添加字段】

3.创建完成

【表单创建完成】二.频道配置

1.添加频道

在基础配置页面,左上方区域点击右键,添加频道。

【添加频道】

在中间上方区域,为频道命名。如果目标网站需要登录或者POST请求,再进行配置。

【配置频道】

2.配置采集源

在采集源区域填写目标地址。

【配置采集地址】

根据自身情况,继续进行Cookie和属性配置。

【配置属性】

3.采集预览

点击页面右上方的,预览采集的数据。

【采集预览】三.模板配置


(一)模板一:新闻链接页
1.模板示例地址

在创建频道后,模板列表已经自动创建了一个模板“默认模板1”。

【模板列表】

在右方“模板抽取配置”区域对该模板进行属性配置。

【填写示例地址】

2.添加链接抽取

在右方“模板抽取配置”区域,点击右键对该模板添加链接抽取。

【添加链接抽取】

3.选择关联模板

点击模板一的链接抽取,为该链接抽取添加关联模板,选择“默认模板2”。

【选择关联模板】

4.链接抽取采集预览

点击采集预览,观察所需链接的地址的规律,剔除无用链接。

以此为例,假设蓝框内是无用链接,红框内是有用的链接。

【测试结果】

通过观察可以发现,有用链接都具有一定特征,其链接地址均为http://news.xinhuanet.com/politics/2015-10/26/c_......,因此,2015-10/26/c_或者2015-10/26就是作为这些有用链接特征的过滤串。

【添加链接过滤后的测试结果】

添加链接过滤后,采集结果全部成为需要的链接内容,剔除了无用的链接。标题过滤同理。


(二)模板二:数据页模板

点击系统默认创建的“默认模板2”,用模板2作为新闻的内容页模板。

1.模板示例地址

点击“默认模板2”,为该模板选择一个具有普遍代表性的新闻数据页,将其URL地址粘贴在“示例地址”区域。

【填写示例地址】

2.添加数据抽取

在右上方模板配置区域点击右键,添加数据抽取。

【添加数据抽取】

3.选择关联表单

在下方模板属性区域,选择数据抽取采用的表单,以将数据采集后存储于对应的字段下。

【选择关联表单】

【表单字段】

4.字段取值

选择后,模板出现表单的各个字段,然后在内置浏览器上逐一进行定位取值。

点击相应的字段,在左侧页面浏览区域,按住Ctrl键左键选择该字段对应存储的内容,点击保存。

【数据定位】

然后在模板属性区域,选择取值类型、是否进行数据处理等。

【选取模板属性】

逐一配置好各个数据字段后,就可以开始采集了。