ForeSpider地址过滤

地址过滤

地址过滤是指,通过找寻要抽取链接的url地址规律,通过字符串匹配,过滤掉无关链接的过滤方式。点击“地址过滤”节点,在其下方的属性区域配置相应的过滤规则。

【地址过滤】

“模板属性”区域包括三个配置,“过滤类型”、“过滤规则”和“过滤串”。

一. 选择过滤类型

过滤类型有三种,这里我们介绍第一种“普通过滤”。选择“普通过滤”后,规律规则和过滤串才会有效。

如果普通过滤不能满足过滤要求,则应该选择“正则过滤”或“脚本过滤”。正则过滤和脚本过滤参考“过滤脚本”。

序号 过滤类型 含义
1 普通过滤 用可视化界面选择过滤规则,填写过滤串。
2 正则过滤 用正则表达式过滤字符串,在下方“代码编辑区”的“过滤脚本”处输入正则表达式。
3 脚本过滤 利用内置脚本过滤字符串,在下方“代码编辑区”的“过滤脚本”处输入脚本语句。

二. 过滤规则与过滤串

1.过滤规则

包含:采集包含过滤串的链接。

排除:采集排除过滤串之外的链接。

2.过滤串

当需要过滤的地址字符规律复杂时,可以采用下列过滤符。

序号 过滤符 含义 举例
1 ; 用“;”隔开多个过滤串,会过滤掉同时满足各个过滤串的字符串,表示“与”。 过滤空链接/空标题,过滤串填“;”即可
2 ^ 表示“非”
过滤规则为“排除”时,“排除非”表示“或”。。
字符串abcde包含a或b:规则选择“排除”,过滤串填“^a;^b”
3 \d 表示一串(个)数字 2015-10/26:\d-\d/\d
4 \c 表示一串(个)小写字母 news.xinhuanet.com:\c.\c.\c/\c
5 \C 表示一串(个)大写字母 NEWS.XINHUANET.COM:\C.\C.\C
6 \s 表示一串(个)有小写或大写字母的字符 News.XinHuaNet.com:\s.\s.\s
7 \S 表示一串(个)有小写、大写字母或数字的字符 Politics2015-10/26:\S-\d/\d
8 \e 字符串终止符,表示过滤串后不包括其他文本 News.XinHuaNet.com:\s.\s.\s\e
9 \# 表示当前网站的域名 当网站是二级域名时,\#表示二级域名。
3.逻辑关系的表达
逻辑 过滤规则 过滤串
包含 A;B
排除 A;B
排除 ^A;^B
包含 ^A
排除 A

三. 过滤示例

以此为例,假设红框内是有用的链接。

【采集预览】

1.观察特征

通过观察可以发现,有用链接都具有一定特征,其链接地址均为https://www.lagou.com/gongsi/…….html。我们可以截取任何一段具有强烈特征的字符串作为过滤串,例如https://www.lagou.com/gongsi/\d.html或者gongsi/\d等,都可以作为过滤串。

2.复制链接

右键点击任一需要抽取的链接行,点击“复制链接”,就可以复制该url地址。

【复制链接】

3.填写过滤规则

第一步:在地址过滤处选择“包含”,将刚才复制的链接地址粘贴进去,把数字串改为“\d”。

第二步:当该模板有多个链接抽取时,需要选择本链接抽取。

第三步:点击“刷新链接”按钮,出现刷新后的链接结果。

第四步:如果过滤效果无误,点击“保存”按钮,关闭采集预览窗口。

【添加链接过滤后的测试结果】

这时地址过滤的配置区域也会出现刚才填写的过滤规则。也可以不在采集预览窗口填写,直接在配置区域填写,再点击采集预览查看效果。

【复制链接】

添加地址过滤后,采集结果全部成为需要的链接内容,剔除了无用的链接。