指该字段需要从网页上获取的数据内容,在建表时预设,可以重复使用该属性。也可以在字段配置时单独设置。
当字段需要存储页面的url地址、采集时间、网页title等内容时,通过选择对应的采集,就可以自动为该字段赋值。
当某字段存储的是网页上的内容数据时,比如文章的标题、联系人名称、电话号码等,通过选择“选区内全部文本”,再在内置浏览器上定位,就可以自动获取网页的数据。
序号 | 采集内容 | 采集子内容 | 描述 |
1 | 空值/常量 | 空值/常量 | 设置字段为某一个值/文本 |
2 | 选区内可见文本 | 选区内全部文本 | 最常用的类型。点击Ctrl选择绿框后,采集选区里的全部内容 |
选区最外层节点文本 | 只取选区内的最外层节点,不取其子节点的内容 | ||
选区最外两层节点文本 | 只取选区内最外层节点和其第一级子节点内容 | ||
网页内文字文本 | 采集整个页面中所有可见的文字文本(不包含源码) | ||
3 | 主键 | 网页主键 | 网页唯一标识 |
自增ID主键 | 该字段会按照自增顺序自动排序 | ||
4 | 选区节点 | 选区节点名称 | 选区内html代码中该节点标签名称 |
选区节点属性值 | 采集选区内该节点的属性值。需要在“标签属性”填写该节点标签的属性,多个属性用“;”隔开 | ||
5 | 网页代码/图片等资源数据 | 数据流文件 | 采集图片、视音频、文件等 |
图片 | 采集页面中位置固定的图片位置不固定选择“数据流文件” | ||
资源数据(pdf、doc...) | 采集页面中位置固定的资源文件。位置不固定选择“数据流文件” | ||
网页全部内容 | 采集网页全部文本,包含html标签等,即整个页面的源代码 | ||
选区网页源码(包含当前标签) | 采集网页内所有选区的源代码(包含当前标签) | ||
选区网页内源码 | 采集网页内所有选区的源代码 | ||
6 | 网页信息 | 网页地址 | 自动采集网页的URL地址 |
网页标题 | 采集网页的标题。即网页<title>中的内容 | ||
文档数据大小 | 采集对象的质量大小[单位:字节] | ||
文档名称 | 采集对象的文件名,如***.html,***.doc | ||
文档后缀 | 文档的文件名后缀,如html、pdf等 | ||
文档后缀类型 | 文档后缀所对应的文档类型:如****.pdf是图片 | ||
文档视高 | 文档的高[如果是图片数据则为图片的高] | ||
文档视宽 | 文档的宽[如果是图片数据则为图片的宽] | ||
文档层级 | 自动获取从入口页当当前数据页的跳转层级数目 | ||
原始网页地址(基地址) | 当网页的网址重定向时,可以获取到重定向之前的原始网址。 | ||
7 | 时间信息 | 网页创建时间 | 文档创建或网页发布的时间 |
网页更新时间 | 文档或网页更新的时间 | ||
网页获取时间 | ForeSpider采集该网页的时间 | ||
当前系统时间 | 数据采集入库的时间 | ||
8 | 采集任务信息 | 任务ID | 采集当前频道的ID |
任务名称 | 采集当前频道的名称 | ||
任务KEY | 外部数据源采集的关联ID或者关键词采集与关键词相关的KEY | ||
任务VALUE | 外部数据源采集关联的数据或者关键词采集的关键词 | ||
9 | 分类信息取值 | 挖掘规则取值 | 通过分类器进行主题分类时,选取的自动赋值类型。 |
分类ID | |||
分类名称 | |||
分类路径 | |||
分类识别词/规则 | |||
文档分类ID | |||
文档分类名称 | |||
文档分类路径 | |||
文档分类识别词/规则 | |||
10 | 高级取值 | 脚本取值 | 由用户自己编写脚本为字段取值时,选择该类型。 |
模板取值 | 当前字段的所需数据不在当前页面在另一页面时,选择模板取值,可以用另外一个模板的内容来填充该字段的值。 | ||
事件取值 | 预留功能 |
示例:<ul>百度<li>搜索<a href=”www.baidu.com”>引擎</a></li></ul>
(1)选区内全部文本
采集选区全部标签下的内容,即“百度搜索引擎”。
(2)选区最外层节点文本
只采集最外层<ul>节点的文本,不采集<li>和<a>文本,此时采集到的内容为:“百度”。
(3)选区最外两层节点文本
只采集<ul><li>的内容,不采集<a>的内容,此时采集到的内容为:“百度搜索”。