发表于2017年5月19日20:38最后回复于2017年5月19日20:38

模板相关概念

13970浏览量

2评论

1.模板

模板通过一个示例地址,模板化同一层级的页面,从而达到批量采集的效果。一个模板对应一个层级的页面,因此同一层页面只能配置一个模板,填写一个示例地址,但是一个模板中可以创建多个链接、数据抽取,每个链接抽取都要关联其他模板。

通过示例地址,用模板表示网站的各层级页面。通过模板之间的关联,模拟网站各页面的跳转关系。通过链接抽取,抽出网页中的链接。通过数据抽取,抓取网页中的数据。

2.示例地址

示例地址作为样例,成为模板,通过以该地址配置模板,可以抓取与该地址在同一层级、具有相似结构的页面数据。

3.链接页

链接页存在一个或多个相关链接,能够通过链接关系,最终跳转到数据页。

4.链接抽取

当该示例地址是链接页,需要抽取该网页的链接时,要为该模板创建链接抽取。创建链接抽取后,软件会自动抽取该页面上所有的链接地址。

5.关联模板

关联模板是指该“链接抽取”抽取出的链接,其下一层级页面对应的模板,也就是在浏览器中,点击链接打开的下一层页面。通过模板之间的关联,可以将网站各层级页面关联起来,在软件中形成与浏览器相同的跳转结构,从而完整的采集数据。

6.链接标签

在链接抽取时,当跳转对象不是链接,是图片、框架等采用的不是href属性时,需要手工填写跳转对象采用的属性,如src等。

7.地址过滤

地址过滤是指,通过找寻要抽取链接的url地址规律,通过字符串匹配,过滤掉无关链接的过滤方式。

8.标题过滤

标题过滤是指通过关键词过滤掉无关标题(筛选出有关标题)的过滤方式。

9.过滤串

通过某一串特征字符,筛选出均具备或均不具备这一特征的链接地址。这一串特征字符就称为过滤串。

10.数据页

显示采集的目标数据的页面。

11.数据抽取

数据抽取将数据页的内容,按照创建的数据表结构抽取,将数据存入数据表各字段。

12.标准定位

普通定位方式,通过在内置浏览器上选择数据区域为字段取值。

13.特征定位

当提取的数据具备其他特征时,根据特征值来定位数据。(当表格数据在不同网页的排列顺序不规范时,可以根据表头的特征信息定位。)

14.字段定位取值

字段定位取值,是指从内置浏览器上,定位数据所在的区域,将数据填充到各字段。

15.模板取值

当前字段的取值数据不在当前页面,在另一页面时,需要选择模板取值。用另外一个模板的内容来填充该字段的值。

16.取值标示

当字段的取值类型为“模板取值”或“节点属性”时,填写取值的标志。

17.多值

多值用于存储表格的数据,将表格的不同列对应存入不同字段,表格的不同行分别存储为数据表的多条记录。

18.字段处理

在采集数据之前,通过使用字段处理,软件可以自动以某种过滤方式,清洗该字段的字符串数据。通过系统自带的或脚本的方式,可以预先清洗不需要的字符串。

19.模板预览

当配置了多个层级的模板后,点击“采集预览”预览采集结果时,会逐个模板下载数据,增加预览的等待时间。如果只需要查看某个模板配置的效果,可以对该模板点击鼠标右键,选择“模板预览”,则可以只预览当前模板的配置效果,节省等待时间。


私信

举报