第一章 采集配置

1.4.6采集表格/列表数据

多值用于存储表格的数据,将表格的不同列对应存入不同字段,表格的不同行分别存储为数据表的多条记录。以某表格为例。

【需要多值存储的表格】

1.创建表单

根据表格内容,创建一个存储表格数据的表单。在选项卡“数据建表”中,创建一个表单。

【多值的表结构】

(1)主键

采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“网页主键”。

表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)

【主键字段的配置】

(2)其他字段

其他字段的变量类型选择“string”,取值类型选择“选区内全部文本”。

【其他字段的配置】

2.创建数据抽取

创建数据抽取,为其选择表单“表格”。

【创建数据抽取和字段】

3.识别多值

点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。

【定位表格】

点击“识别多值”,选区扩大到整个表格。点击“确认选区”。

【确认多值】

4.字段取值

主键字段不需要配置。存储表格内容的字段需要一一取值。

点击数据抽取的字段,为其一一配置表格不同列的数据。点击“descript”,按Ctrl点击第一列的任意单元格,点击“保存”。

【多值字段取值】