评论信息大多是表格形式的,一行是一条数据。采集表格数据时,由于各行都在同一个页面上,所以主键字段不能选择“网页主键”。一般有两种情况:
①字段采集内容为“空”,字段属性选择“主键字段”、“自增字段”。
②表格有独特的序列特征时,以该特征作为主键,采集内容选择“选区内全部文本”,字段属性选择“主键字段”。
字段名称 | 采集内容 | 数据类型 | 长度 | 字段属性 | 高级类型 | 字段说明 |
comm_id | (空) | 长数字 | 0 | 索引字段; 键值唯一; 主键字段; 自动字段; | NONE | 评论ID |
pro_name | 选区内全部文本 | 字符串 | 64 | 无 | NONE | 产品名称 |
score | 选区内全部文本 | 浮点数 | 0 | 无 | NONE | 评分 |
author | 选区内全部文本 | 字符串 | 64 | 无 | NONE | 评论人 |
context | 选区内全部文本 | 字符串 | 0 | 无 | 长文本(<64k) | 评论正文 |
commTime | 选区内全部文本 | 字符串 | 32 | 无 | NONE | 评论时间 |
get_time | 网页获取时间 | 长数字 | 0 | 无 | 日期时间 | 采集时间 |