第一章 采集配置

1.2.5 字段节点

字段:数据表的每一列,称为一个字段,用于存储一类数据。如姓名字段、班级字段、电话字段。

在数据抽取节点,选择表单后,会出现字段列表。也可以自行添加字段。

【添加字段】

字段节点的配置内容:

1 字段名称 选择表单后,默认加载字段列表。
2 取值类型 显示建表时选择的取值类型。取值类型可以修改。>>查看取值类型详情
3 定位类型 标准定位和特征定位,用法见下表。
4 标签属性 仅取值类型为“选区节点属性值”、“模板取值”时填写。
5 字段处理 对采集的数据进行后期清洗和处理。详情见下表。

根据建表时的取值类型,字段分为两类:

①无需定位取值:软件根据选择的取值类型,自动为该字段赋值。

②需要定位取值:需要手动定位取值,定位类型包括标准定位和特征定位。

一.特征定位

字段节点的配置内容:>>查看特征定位示例

1.局部关键词

当页面的数据前有特定的关键词,而各个页面的表格内容、各行次序、行数又各不相同时,采用标准定位的方式就会错乱。可以根据表头特征,采集表格后的数据。与全文关键词的区别是,局部关键词只在选定区域的附近采集。

2.全文关键词

根据选定的特征关键词,在全页面采集该特征关键词前后对应的数据,如果出现多个特征关键词,以第一个为主。如果想采集多个的话,可以设定多值。>>查看多值的配置方式

3.大文本

选定大文本区域后,自动识别各页面的大文本,相比标准定位更加精确。

4.特殊标签

采集页面中只出现一次的特殊标签,如标题的标签等。

操作方式:

①选择特征定位的类型和方式。

②选择:按Ctrl点击页面上相应数据的区域。

③特征:点击“特征”,出现红框,多次点击“特征”,红框移动到特征字符串时保存。

二.字段处理

在采集数据之前,通过使用字段处理,软件可以自动以某种过滤方式,清洗该字段的字符串数据。通过系统自带的或脚本的方式,可以预先清洗不需要的字符串。

【字段处理】

在下拉菜单中选择数据处理方式。

序号 数据处理方式 描述 举例
1 去除首尾空白符 去除该字段数据的首尾空白符。 例如去除段落首行缩进符。
2 去除所有空白符 去除该字段数据的全部空白符。 去除数据中的空白字符。
3 取左串 取标识符左边的字符串。
需要在下方“字段处理标识符”处填写标识符。
如“沉睡的雄狮——中国:完成了历史复兴”,需要取“沉睡的雄狮”,在“字段处理标识符”处填写“——”。
4 取右串 取标识符右边的字符串。
需要在下方“字段处理标识符”处填写标识符。
如“沉睡的雄狮——中国:完成了历史复兴”,需要取“完成了历史复兴”,在“字段处理标识符”处填写“:”。
5 取中间串 取两个标识符中间的字符串。
需要在下方“字段处理标识符”处填写两个标识符,两个标识符用“;”隔开。
如“沉睡的雄狮——中国:完成了历史复兴”,需要取“中国”,在“字段处理标识符”处填写“——;:”。
6 标准时间 将时间处理成标准的时间格式。 将时间处理成“####-##-## ##:##:##”的标准格式。
7 脚本处理 通过编写脚本进行更多数据处理。 需要在下方“字段处理脚本”处输入脚本。 使用脚本处理字段数据。

字段处理脚本是字段处理中选择“脚本处理”后,通过脚本进一步把需要的数据清洗干净。具体配置方法需要参考脚本文档。