ForeSpider字段取值类型分类

字段取值类型分类

取值类型是字段取值时选用的类型方式,可以自动获取到文档的各类参数和数据内容。与表单添加字段时的“取值类型”相同。

如果表单配置字段时已经为该字段选择了取值类型,则此处自动同步字段的取值类型,也可以在此处进行修改。如果此处的取值类型和表单字段的取值类型不一致,字段取值时以模板的数据抽取这里配置的取值类型为准,数据入库时以表单字段的取值类型为准。二者不冲突。>>点击查看取值类型详细列表

取值类型分为如下几类:



一. 空

当取值类型为空时,即使选取了定位区域,也不会采集到数据。除了当字段为“Integer”或“Long”,且字段属性为“自动字段”时,该属性下的字段才会有值。因此除上述设置或使用脚本赋值外,必须选择取值类型。



二. 主键字段:网页主键

主键的选取一般有两种方式:

1.选取采集的数据作为主键。

比如将新闻标题作为主键。但由于主键的唯一性,如果遇到重复的标题,会导致重复的数据记录无法插入数据库。因此除非很确定该字段不会有重复内容,否则不建议这样设置主键字段。

2.单独建立一个主键。

这时主键字段的取值类型要选择“网页主键”,系统会自动为主键赋值,采集文档地址的MD5值作为网页主键,以保证主键字段的唯一性。

但是在采集表格数据时,表格每一行都需要主键,不能采用网页主键作为主键值。推荐主键字段的字段属性选择“自动字段”,取值类型为“空”。



三. 定位取值的类型:“选区**”类

只有“选区**”取值类型的字段,需要从内置浏览器上定位取值。取值内容是按Ctrl选择的绿色区域内的数据。

“节点”是指的html文档的dom树节点,即每一组html标签为一个节点。取值类型为“选区**”时,取值内容是采集对象的dom树节点。因此必须在内置浏览器上定位取值。

1.选区内全部文本

当从内置浏览器上为字段取值时,大多数情况都选择这一取值类型。是指取绿色虚线框部分的所有节点的内容。

如<ul><li><a href=”www.baidu.com”>百度</a></li></ul>,取“选区内全部文本”会采集全部标签下的内容。

2.选区最外两层节点内容

只取选区内最外层节点和其第一级子节点内容。

如<ul><li><a href=”www.baidu.com”>百度</a></li></ul>,取“选区最外两层节点内容”,则采集<ul><li>的内容,不采集<a>的内容。

3.选区最外层节点内容

只取选区内的最外层节点,不取其子节点的内容。

如<ul><li><a href=”www.baidu.com”>百度</a></li></ul>,取“选区最外层节点内容”就只选取<ul>节点,不采集<li>和<a>内容。

4.选区节点名称

选区内html代码的dom节点标签名称。采集选区内的html标签,如<div>,<p>等。

5.节点属性

采集选区内dom节点的属性值,如href属性的值,是链接地址。需要在“取值标示”一栏填写该节点标签的属性名,多个属性用“;”隔开。

在“取值标示”处填写字段取值部分的html标签属性,如href,src等,就可以采集该节点的属性值,如链接地址、图片地址等。>>查看节点属性采集示例



四. 采集数据流

1.原始数据流

文档原始的二进制数据,如果采集视频或图片则自动填充数据到该字段。采集图片的字段必须选择原始数据流,以存储图片或视频等数据流。

2.图片

采集页面中位置固定的图片。直接在页面上按Ctrl定位图片,即可采集到图片。(位置不固定选择“原始数据流”。)

3.资源文件

采集页面中位置固定的资源文件。(位置不固定选择“原始数据流”。)



五. 需要从另一页面取值:模板取值

当前字段的取值数据不在当前页面,在另一页面时,需要选择模板取值。用另外一个模板的内容来填充该字段的值。(注意:模板取值的id不能填自身)

需要在“取值标示”一栏根据另一个模板的属性填写src=[id: ]或href=[id: ],id取另一个模板的id值。在另一页面设置相同的字段,在“取值标示”处连接另一个模板。即可将另一页面的数据存于本模板的该字段。>>查看模板取值示例



六. 使用脚本取值:脚本取值

由用户自己编写脚本为字段取值时,选择该类型。选择后,下方脚本编辑区域变成“字段取值脚本”状态,在此处编写脚本,为字段取值。



七. 自动赋值的类型

选择下列取值类型时,系统会自动为字段赋值。

1.网页地址

自动采集网页的URL地址。

2.网页标题

采集网页的标题。即网页<title>中的内容。

3.网页内文字文本

网页内所有可见的文字文本。采集整个页面中所有可见的文字文本。

4.网页内容

采集网页的所有文本,包含不可见的网页结构标签等,即整个页面的源代码。

5.网页创建时间

文档创建或网页发布的时间。

6.网页更新时间

文档或网页更新的时间。

7.网页获取时间

ForeSpider采集该网页的时间。

8.当前系统时间

数据采集入库的时间。

9.文档数据大小

采集对象的质量大小[单位:字节]。

10.文档名称

采集对象的文件名,如***.html,***.doc。

11.文档后缀

文档的文件名后缀,如html、pdf等。

12.文档视宽

文档的宽[如果是图片数据则为图片的宽]。

13.文档视高

文档的高[如果是图片数据则为图片的高]。

14.频道ID

采集当前频道的ID。

15.频道名称

采集当前频道的名称。