ForeSpider特征定位

特征定位

当提取的数据具备其他特征时,根据特征值来定位数据。带有数据挖掘功能,根据配置的特征关键词,匹配页面的数据。

特征定位分为四种方式:

1.局部关键字

当页面的数据前有特定的关键词,而各个页面的表格内容、各行次序、行数又各不相同时,采用标准定位的方式就会错乱。可以根据表头特征,采集表格后的数据。与特征关键字的区别是,局部关键字只在选定区域的附近采集。

2.特征关键字

根据选定的特征关键词,在全页面采集该特征关键词后面对应的数据,如果出现多个特征关键字,以第一个为主。如果想采集多个的话,可以设定多值。>>查看多值的配置方式

3.大文本

选定大文本区域后,自动识别各页面的大文本,相比标准定位更加精确。

4.特殊标签

采集页面中只出现一次的特殊标签,如标题的<h1>标签等。

操作方式:

①选择特征定位的类型和方式。

②选择:按Ctrl点击页面上相应数据的区域。

③特征:点击“特征”,出现红框,多次点击“特征”,红框移动到特征字符串时保存。

一.局部关键字

【特征定位-局部关键字1】

当页面的数据前有特定的关键词,而各个页面的表格内容、各行次序、行数又各不相同时,采用标准定位的方式就会错乱。可以根据表头特征,采集表格后的数据。

示例:

1.第一步,选择“公司名称”的字段,选择“特征定位”。

【特征定位-局部关键字2】

2.第二步,按“Ctrl”点击“公司名称”那一行,出现绿框。

【特征定位-局部关键字3】

3.第三步,点击“特征”按钮,使红框位于特征关键词“公司名称”之上。

【特征定位-局部关键字4】

4.选择“局部关键词”,点击“保存”,完成该字段的特征定位。继续按此步骤操作下一字段。



二.特征关键字

特征关键字方式与局部关键字方式的唯一区别在于,局部关键字只在选定区域的附近采集,特征关键字在整个页面挖掘该关键字。



三.大文本

第一步:将字段的定位类型选择为“特征定位”,方式选择“大文本”。

第二步:按Ctrl点击文章正文区域,出现绿框;按Shift再次点击,扩大选区。

第三步:点击“特征”按钮,绿框变为红框,定位选择器上显示“div”,<div>是<p>的父节点。点击保存即可。

【特征定位-大文本】



四.特殊标签

特殊标签方式与大文本方式类似,按Ctrl选择标题部位后,点击“特征”按钮即可。可看的定位选择器已经识别了文章标题的<h1>标签。

【特征定位-特殊标签】