第一章 采集配置

1.1.2 设置采集属性

采集属性是关于采集的一些基本属性设置,大多数情况下可以不设置。

【设置采集属性】

1.采集方式

(1)默认采集:通常默认的采集方式。

(2)浏览器采集:通过浏览器插件的方式采集数据,对JS支持好,近乎于在浏览器上点击,但采集效率低。适用于大量JS生成且采集难度大的网页。

2.采集类型

(1)默认(html网页):采集网站上的信息。

(2)本地文件目录:采集本地文件目录。

3.JavaScript选项

对于有些网页,JavaScript只用于美观效果,可以关闭JavaScript,会加快采集速度。启用JavaScript,可以启用JavaScript的相关方法。

4.模板继承(高级功能,低配版不支持)

(1)模板继承:当前采集任务的子节点,继承本节点的模板配置规则。

(2)关键词继承:当前采集任务的子节点,继承本节点的关键词配置规则。

5.网站编码

DEFAULT是指自动跟随网站的默认编码,也可自行指定其他编码。