ForeSpider采集数据分布在不同页面的内容

采集数据分布在不同页面的内容

采集url、抓取时间、页面大小等参数数据

url、抓取时间、页面大小、图片宽高等参数性的数据,可以通过设置字段的取值类型进行抓取。在“表单”中为数据表创建字段时,就可以选择相应的取值类型。无需其他配置,不需要再设置选取,软件会自动抓取相应的参数。

带有“选区**”的属性需要在内置浏览器中选取选区。

序号 取值类型 描述 用途
1 网页主键 采集网页地址的MD5值,以标识数据的唯一性。

当该字段是主键字段时,大多数情况选择这一项取值类型。

采集表格数据时,表格每一行都需要主键,不能采用文档主键作为主键值,取值类型应为“空”,字段属性为“自动字段”。
2 网页地址 采集URL地址或路径。 采集网页的URL地址。
3 网页标题 采集网页文件的<title>标签内容。 采集网页<title>中的内容。
4 网页内文字文本 网页内所有可见的文字文本。 采集整个页面中所有可见的文字文本,与定位区域无关。
5 网页全部内容 采集源代码。网页的所有文本,包含不可见的文档结构标签等。 采集源代码,即整个页面中所有文本(包含不可见的文档结构标签等),与定位区域无关。
6 网页创建时间 网页创建的原始时间[也指网页发布时间]。 文档创建或网页发布的时间。
7 网页更新时间 网页最后更新的时间[也指网页最后更新的时间]。 文档更新或网页更新的时间。
8 网页获取时间 采集获取网页数据的时间。 ForeSpider下载该网页的时间。
9 当前系统时间 当前的系统时间戳。 数据存入该字段的时间。
10 频道ID 采集当前频道的ID。 采集当前频道的ID。
11 频道名称 采集当前频道的名称。 采集当前频道的名称。
12 文档数据大小 文档的质量[单位:字节]。 采集文档的质量大小数据。
13 文档名称 采集对象的文件名。 采集文档名,如***.html,***.doc。
14 文档后缀 采集对象的文件后缀。 如html、pdf等。
15 文档后缀类型 采集对象的文件后缀类型。 采集后缀的枚举类型。
16 文档视宽 文档的宽[如果是图片数据则为图片的宽]。 文档的宽[如果是图片数据则为图片的宽]。
17 文档视高 文档的高[如果是图片数据则为图片的高] 文档的高[如果是图片数据则为图片的高]