字段从网页上取值,有几种情况:
①自动取值:有些采集类型可以自动获取网页上的内容。
②定位取值:通过在网页上定位选区,获取数据。包括标准定位和特征定位。
③模板取值:部分数据在另一个网页上,想存储在同一张表中。
④脚本取值:通过编写脚本获取数据。
当采集内容设置为以下内容时,系统会自动为字段赋值,无需额外操作。
采集内容大类 | 采集内容小类 | 说明 |
空值/常量 | 常量 | 设置字段为某一个值/文本 |
选区内可见文本 | 网页内文字文本 | 采集整个页面中所有可见的文字文本。 |
主键 | 网页主键 | 网页唯一标识 |
自增ID主键 | 该字段会按照自增顺序自动排序 | |
源码/图片/文件 | 网页全部内容 | 采集网页全部文本,包含html标签等,即整个页面的源代码。 |
网页信息 | 网页地址 | 自动采集网页的URL地址。 |
网页标题 | 采集网页的标题。即网页<title>中的内容。 | |
文档数据大小 | 采集对象的质量大小[单位:字节]。 | |
文档名称 | 当前文档(文件)的名称 | |
文档后缀 | 文档的文件名后缀 | |
文档后缀类型 | 文档后缀的枚举类型 | |
文档视宽 | 文档的宽[如果是图片数据则为图片的宽] | |
文档视高 | 文档的高[如果是图片数据则为图片的高] | |
文档层级 | 文档被采集时的链接深度(层级) | |
原始网页地址 | 当页面重定向以后,依然保存重定向以前的地址 | |
时间信息 | 网页创建时间 | 文档创建或网页发布的时间。 |
网页更新时间 | 文档或网页更新的时间。 | |
网页获取时间 | ForeSpider采集该网页的时间。 | |
当前系统时间 | 数据采集入库的时间。 | |
采集任务信息 | 任务ID | 采集当前任务的ID。 |
任务名称 | 采集当前任务的名称。 |