为了在抽取的链接中去除无关链接,有两种过滤方式,配置方式相同。
①地址过滤:通过url地址的规律,过滤无关链接。
选择地址过滤,过滤方式为普通过滤,过滤规则为包含“/c/7”,过滤出需要的链接,最后点击右上角的【采集预览】查看是有内容。
【采集预览】
②标题过滤:通过链接标题的规律,过滤无关链接。
1.地址/标题过滤的配置内容
序号 | 名称 | 描述 |
1 | 过滤方式
| ①普通过滤:软件自带过滤方式,使用通配符作为过滤串进行过滤。 ②正则过滤:使用正则表达式进行过滤。 ③脚本过滤:利用内置脚本过滤字符串,点击“创建脚本”编写。 |
2 | 过滤规则
| ①包含:留下“包含过滤串”的链接。 ②排除:留下“不包含过滤串”的链接。 |
3 | 过滤串 | 填写过滤串进行过滤。 |
2.过滤串规则说明
序号 | 过滤符 | 含义 | 举例 |
1 | ; | 用“;”隔开多个过滤串,会过滤掉同时满足各个过滤串的字符串,表示“与”。 | 过滤空链接/空标题,过滤串填“;”即可 |
2 | , | 表示“或”。 | 过滤**或**,甚至更多项时,在各项之间填写“,”即可 |
( ) | 规则组合,规则优先 | 如果存在多个规则组合情况,将想要优先的规则用()标注,即可优先该规则 | |
^ | 表示“非”。过滤规则选择“排除”,“排除非”表示“或”。 | 字符串abcde包含a或b:规则选择“排除”,过滤串填“^a;^b” | |
\d | 表示一串(个)数字 | 如2015-10/26 => \d-\d/\d 如123456874 =>\d | |
\D | 表示时间、日期 | 如2015-10/26 => \D | |
\X(x) | 16进制数(0~9或A(a)~F(f)) | 31 => \x1F | |
\c | 表示一串(个)小写字母 | news.xinhuanet.com => \c.\c.\c/\c | |
\C | 表示一串(个)大写字母 | NEWS.XINHUANET.COM => \C.\C.\C | |
\s | 表示一串(个)有小写或大写字母的字符 | News.XinHuaNet.com => \s.\s.\s | |
\S | 表示一串(个)有小写、大写字母或数字的字符 | Politics2015-10/26 => \S-\d/\d | |
\w | 字母、数字、下划线、减号、$ | Ern8_78wednfn=>\w | |
\e | 字符串终止符,表示过滤串后不包括其他文本 | News.XinHuaNet.com => \s.\s.\s\e | |
\E | 文件结束(忽略所有请求参数) | ||
\# | host过滤当前域名下 | 过滤当前域名,过滤串填“\#”即可 | |
\@ | 过滤当前目录下 | 过滤当前目录下链接,过滤串填“\@”即可 | |
\$ | 过滤一级域名 | 过滤一级域名,过滤串填写“\$”即可 |