第一章 采集配置

1.2.3 地址(标题)过滤节点

为了在抽取的链接中去除无关链接,有两种过滤方式,配置方式相同。

(1)地址过滤:通过url地址的规律,过滤无关链接。

(2)标题过滤:通过链接标题的规律,过滤无关链接。

地址(标题)过滤节点的配置内容:

1 过滤方式(必填) ①普通过滤:软件自带过滤方式,使用通配符作为过滤串进行过滤。
②正则过滤:使用正则表达式进行过滤。
③脚本过滤:利用内置脚本过滤字符串,点击“创建脚本”编写。
2 过滤规则(必填) ①包含:留下“包含过滤串”的链接。
②排除:留下“不包含过滤串”的链接。
3 过滤串(必填) 填写过滤串进行过滤。详细规则如下。