ForeSpider创建字段

创建字段

在数据库中,表的“列”称为“字段”,每个字段包含某一专题的信息。就像“通讯录”数据表中,“姓名”、“联系电话”这些都是表中所有行共有的属性,所以把这些列称为“姓名”字段和“联系电话”字段。

一.添加字段

点击字段列表上方的“添加”按钮,弹出“添加字段”窗口

【添加字段窗口】

  • 字段列表上方的其他按钮:
  • 1.  添加:
    添加字段。
  • 2.  修改:
    修改字段,双击某一字段也可以。
  • 3.  上移:
    字段排名上移。
  • 4.  下移:
    字段排名下移。
  • 5.  删除:
    删除字段。
  • 6.  保存:
    保存数据表。
  • 7.  快速建表:
    快速建表功能。


二.字段名称

区分大小写。由英文字符、数字、下划线、$构成。

不支持中文。

不能以数字开头。

不能是SQL语句关键字:如select、time等。



三.取值类型

取值类型是指该字段从采集内容获取的自动填充值。

比如某字段存储的是页面的url地址、采集时间、网页title等内容时,通过选择对应的取值类型,就可以自动为该字段赋值。

当某字段存储的是网页上的内容数据时,比如文章的标题、联系人名称、电话号码等,通过选择“选区内全部文本”,再在内置浏览器上定位,就可以自动获取网页的数据。

可以选择的取值类型及其描述如下:

序号 取值类型 描述 用途
1 不取值。一般用于表格的主键字段。

只有字段为“Integer”或“Long”,且字段属性为“自动字段”时,该属性下的字段才会有值。

因此除上述应用外,必须选择取值类型。
2 选区内全部文本 采集选区内的全部文字内容。

当从内置浏览器上为字段取值时,大多数情况都选择这一取值类型。采集选区内所有节点的文本内容。

如<ul><li><a href=”www.baidu.com”>百度</a></li></ul>,取“所有子节点内容”会采集全部标签下的内容。
3 网页主键 采集网页地址的MD5值,以标识数据的唯一性。

当该字段是主键字段时,大多数情况选择这一项取值类型。

采集表格数据时,表格每一行都需要主键,不能采用文档主键作为主键值,取值类型应为“空”,字段属性为“自动字段”。
4 网页地址 采集URL地址或路径。 采集网页的URL地址。
5 网页标题 采集网页文件的<title>标签内容。 采集网页<title>中的内容。
6 脚本取值 由用户自己编写脚本的方式来填充字段数据 当用脚本编写字段取值部分时,选择该类型。
7 模板取值 当所需要的填充数据不在当前页面时须要选择此项,用另外一个模板的内容来填充该字段的值。

(注意:模板取值的id不能填自身)

当前字段的取值数据不在当前页面,在另一页面时,选择模板取值。

①在另一页面模板的数据抽取下,设置相同的字段;②在“取值标示”一栏,填写src=[id: ]或href=[id: ](id=另一个模板的id值),连接另一个模板。
8 原始数据流 采集原始的二进制数据[资源、音乐、图片等]。 配合扩展主类型和子类型选择,可以存储图片或视频等数据流。
9 图片 采集页面中位置固定的图片。[位置不固定选择“原始数据流”] 与原始数据流的区别是,可以直接在页面上选区采集图片,少配置一个抽取图片的模板。>>详情
10 资源文件 采集页面中位置固定的资源文件。[位置不固定选择“原始数据流”] 与原始数据流的区别是,可以直接在页面上选区采集文件,少配置一个抽取资源文件的模板。
11 网页内文字文本 网页内所有可见的文字文本。 采集整个页面中所有可见的文字文本,与定位区域无关。
12 网页全部内容 采集源代码。网页的所有文本,包含不可见的文档结构标签等。 采集源代码,即整个页面中所有文本(包含不可见的文档结构标签等),与定位区域无关。
13 网页创建时间 网页创建的原始时间[也指网页发布时间]。 文档创建或网页发布的时间。
14 网页更新时间 网页最后更新的时间[也指网页最后更新的时间]。 文档更新或网页更新的时间。
15 网页获取时间 采集获取网页数据的时间。 ForeSpider下载该网页的时间。
16 当前系统时间 当前的系统时间戳 数据存入该字段的时间。
17 频道ID 采集当前频道的ID。 采集当前频道的ID。
18 频道名称 采集当前频道的名称。 采集当前频道的名称。
19 选区节点名称 选区内的节点名称,<div>,<p>等。 字段取值部分的html标签,如<div>,<p>等。
20 选区节点属性值 选区内的节点属性值,如<a>的href属性:链接地址。

采集图片链接需要选择本属性。

在“取值标示”处填写字段取值部分的html标签属性,如href,sourse等(多个属性用“;”隔开)。就可以采集该节点的属性值,如链接地址等。
21 选区最外层节点内容 选区最外层节点的可见内容。[只取当前节点,不取其子节点的内容] 如<ul><li><a href=”www.baidu.com”>百度</a></li></ul>,只选取<ul>节点,不采集<li>和<a>内容。
22 选区最外两层节点内容 选区最外两层节点的可见内容。[只取当前节点和第一级子节点的内容] 如<ul><li><a href=”www.baidu.com”>百度</a></li></ul>,采集<ul><li>节点,不采集<a>内容。
23 文档数据大小 文档的质量[单位:字节]。 采集文档的质量大小数据。
24 文档名称 采集对象的文件名。 采集文档名,如***.html,***.doc。
25 文档后缀 采集对象的文件后缀。 如html、pdf等。
26 文档后缀类型 采集对象的文件后缀类型。 采集后缀的枚举类型。
27 文档视宽 文档的宽[如果是图片数据则为图片的宽]。 文档的宽[如果是图片数据则为图片的宽]。
28 文档视高 文档的高[如果是图片数据则为图片的高] 文档的高[如果是图片数据则为图片的高]


四.变量类型

数据类型表示数据的值的类型,比如数字型、字符串型等。

变量类型包含如下:

序号 变量类型 描述
1 Integer 存放整数型数据。单精度,字长为4。
2 Long 存放位数长的整数型数据。长整形,字长为8。
3 Float 存放小数数据。数字浮点数,字长为8。
4 String 存放字符串数据。定长或变长,如不指定字段长度则为变长。
5 Stream 数据流,存放二进制数据,采集图片时需要选择Stream。


五.字段属性

字段属性表示字段的一些独特性质,比如主键字段、索引字段、非空字段等。

序号 字段属性 描述
1 变长字段 该字段是变长类型,仅对String类型,且字段长度为空时有效。
2 多值字段 该字段是多值字段。
3 非空字段 该字段不可为空值。
4 键值唯一 该字段的键值是唯一的。
5 可加字段 是ForeLib独有的属性,该字段可对数据记录进行加减运算。
6 索引字段 为该字段添加索引,如果该字段是String字段,则必须设置字段长度。主键字段自动默认为索引字段。
7 主键字段 该字段为主键。
8 自动字段 该字段可以自动填充值。采集表格数据时,主键字段要选择自动字段属性。


六.字段长度

当字段是String类型时,要填写字符串的长度,长度要考虑超长的情况,尽量不要设置的偏小,以防止有超出长度的数据无法存入数据库。

当字段的长度无法预计时,比如文章正文,可以不填写,字段属性选择“变长字段”。或者扩展主类型选择“文本”,扩展子类型选择“小量文本”或“文本较大”。

1.当使用ForeLib数据库时

①仅针对于变量类型是‘String’时有效。

②如果该String字段添加了索引属性,则必须设置字段长度。当数据内容较长又没有设置索引时,建议不填写字段长度。

2.当使用MySQL数据库时

①必须指定字段长度,或选择字段属性为“变长字段”。(如果不指定长度,则必须选择字段的扩展主类型和子类型,否则会发生入库错误。)

当字段的长度无法预计时,字段属性选择“变长字段”,或者扩展主类型选择“文本”,扩展子类型选择“小量文本”或“文本较大”。可以不指定字段长度。



七.扩展主类型

针对大文本、图片、音乐、数据流等特殊格式的数据,要在扩展主类型里选择对应的类别。(当取值类型选择“图片”时,系统自动选择图片的扩展主类型。)

扩展主类型指对于该字段的数据特殊处理方式。包含如下:

序号 扩展主类型 描述
1 NONE 不指定。
2 时间类型 仅针对String有效,可以将字符串存储为时间类型的格式。
3 文本 仅针对String有效,选择后文本会支持全文检索。
4 图片 仅针对Stream有效,选择后图片可以在ForeSpider内预览。
5 文档 仅针对Stream有效,预留字段。
6 文档 仅针对Stream有效,预留字段。
7 数据流 仅针对Stream有效,预留字段。


八.扩展子类型

扩展子类型仅针对扩展主类型为某些类型时有效,用来配置该字段作为文本的数据存储方式。

序号 扩展主类型 扩展子类型 描述
1 NONE NONE 不指定。
2 文本 小量文本 预留空间小,适合存储小于64K的内容。
3 文本较大 预留空间大,适合存储大型文本等内容。
4 图片 jpg、png等图片格式 预留字段。


九.字段描述

为字段填写描述性的注释内容。