3.1.4 设置采集内容

教程列表

3.1.4 设置采集内容

指该字段需要从网页上获取的数据内容，在建表时预设，可以重复使用该属性。也可以在字段配置时单独设置。

当字段需要存储页面的url地址、采集时间、网页title等内容时，通过选择对应的采集，就可以自动为该字段赋值。

当某字段存储的是网页上的内容数据时，比如文章的标题、联系人名称、电话号码等，通过选择“选区内全部文本”，再在内置浏览器上定位，就可以自动获取网页的数据。

序号	采集内容	采集子内容	描述
1	空值/常量	空值/常量	设置字段为某一个值/文本
2	选区内可见文本	选区内全部文本	最常用的类型。点击Ctrl选择绿框后，采集选区里的全部内容
		选区最外层节点文本	只取选区内的最外层节点，不取其子节点的内容
		选区最外两层节点文本	只取选区内最外层节点和其第一级子节点内容
		网页内文字文本	采集整个页面中所有可见的文字文本（不包含源码）
3	主键	网页主键	网页唯一标识
3	主键	自增ID主键	该字段会按照自增顺序自动排序
4	选区节点	选区节点名称	选区内html代码中该节点标签名称
4	选区节点	选区节点属性值	采集选区内该节点的属性值。需要在“标签属性”填写该节点标签的属性，多个属性用“;”隔开
5	网页代码/图片等资源数据	数据流文件	采集图片、视音频、文件等
		图片	采集页面中位置固定的图片位置不固定选择“数据流文件”
		资源数据（pdf、doc...）	采集页面中位置固定的资源文件。位置不固定选择“数据流文件”
		网页全部内容	采集网页全部文本，包含html标签等，即整个页面的源代码
		选区网页源码（包含当前标签）	采集网页内所有选区的源代码（包含当前标签）
		选区网页内源码	采集网页内所有选区的源代码
6	网页信息	网页地址	自动采集网页的URL地址
		网页标题	采集网页的标题。即网页<title>中的内容
		文档数据大小	采集对象的质量大小[单位:字节]
		文档名称	采集对象的文件名，如*.html，*.doc
		文档后缀	文档的文件名后缀，如html、pdf等
		文档后缀类型	文档后缀所对应的文档类型：如****.pdf是图片
		文档视高	文档的高[如果是图片数据则为图片的高]
		文档视宽	文档的宽[如果是图片数据则为图片的宽]
		文档层级	自动获取从入口页当当前数据页的跳转层级数目
		原始网页地址（基地址）	当网页的网址重定向时，可以获取到重定向之前的原始网址。
7	时间信息	网页创建时间	文档创建或网页发布的时间
		网页更新时间	文档或网页更新的时间
		网页获取时间	ForeSpider采集该网页的时间
		当前系统时间	数据采集入库的时间
8	采集任务信息	任务ID	采集当前频道的ID
		任务名称	采集当前频道的名称
		任务KEY	外部数据源采集的关联ID或者关键词采集与关键词相关的KEY
		任务VALUE	外部数据源采集关联的数据或者关键词采集的关键词
9	分类信息取值	挖掘规则取值	通过分类器进行主题分类时，选取的自动赋值类型。
		分类ID
		分类名称
		分类路径
		分类识别词/规则
		文档分类ID
		文档分类名称
		文档分类路径
		文档分类识别词/规则
10	高级取值	脚本取值	由用户自己编写脚本为字段取值时，选择该类型。
		模板取值	当前字段的所需数据不在当前页面在另一页面时，选择模板取值，可以用另外一个模板的内容来填充该字段的值。
		事件取值	预留功能

示例：<ul>百度<li>搜索<a href=”www.baidu.com”>引擎</a></li></ul>

（1）选区内全部文本

采集选区全部标签下的内容，即“百度搜索引擎”。

（2）选区最外层节点文本

只采集最外层<ul>节点的文本，不采集<li>和<a>文本，此时采集到的内容为：“百度”。

（3）选区最外两层节点文本

只采集<ul><li>的内容，不采集<a>的内容，此时采集到的内容为：“百度搜索”。

咨询电话(周一至周五9：00-18：00)

3.1.4 设置采集内容