目录
    4.5.4 链接抽取的地址/标题过滤
    视频教程:模板下载:

    为了在抽取的链接中去除无关链接,有两种过滤方式,配置方式相同。

    ①地址过滤:通过url地址的规律,过滤无关链接。


     


    选择地址过滤,过滤方式为普通过滤,过滤规则为包含“/c/7”,过滤出需要的链接,最后点击右上角的【采集预览】查看是有内容。


     【采集预览】


    ②标题过滤:通过链接标题的规律,过滤无关链接。


    1.地址/标题过滤的配置内容


    序号

    名称

    描述

    1

    过滤方式

     

    ①普通过滤:软件自带过滤方式,使用通配符作为过滤串进行过滤。

    ②正则过滤:使用正则表达式进行过滤。

    ③脚本过滤:利用内置脚本过滤字符串,点击“创建脚本”编写。

    2

    过滤规则

     

    ①包含:留下“包含过滤串”的链接。

    ②排除:留下“不包含过滤串”的链接。

    3

    过滤串

    填写过滤串进行过滤。



    2.过滤串规则说明 


    序号

    过滤符

    含义

    举例

    1

    ;

    “;”隔开多个过滤串,会过滤掉同时满足各个过滤串的字符串,表示“与”。

    过滤空链接/空标题,过滤串填“;”即可

    2

    ,

    表示“或”。

    过滤**或**,甚至更多项时,在各项之间填写“,”即可


    规则组合,规则优先

    如果存在多个规则组合情况,将想要优先的规则用()标注,即可优先该规则


    ^

    表示“非”。过滤规则选择“排除”,“排除非”表示“或”。

    字符串abcde包含a或b:规则选择“排除”,过滤串填“^a;^b”


    \d

    表示一串(个)数字

    2015-10/26  =>  \d-\d/\d

    123456874 =>\d


    \D

    表示时间、日期

    2015-10/26  => \D


    \X(x)

    16进制数(0~9或A(a)~F(f))

    31  =>  \x1F


    \c

    表示一串(个)小写字母

    news.xinhuanet.com  =>  \c.\c.\c/\c


    \C

    表示一串(个)大写字母

    NEWS.XINHUANET.COM  =>  \C.\C.\C


    \s

    表示一串(个)有小写或大写字母的字符

    News.XinHuaNet.com  =>  \s.\s.\s


    \S

    表示一串(个)有小写、大写字母或数字的字符

    Politics2015-10/26  =>  \S-\d/\d


    \w

    字母、数字、下划线、减号、$

    Ern8_78wednfn=>\w


    \e

    字符串终止符,表示过滤串后不包括其他文本

    News.XinHuaNet.com  =>  \s.\s.\s\e


    \E

    文件结束(忽略所有请求参数)



    \#

    host过滤当前域名下

    过滤当前域名,过滤串填“\#”即可


    \@

    过滤当前目录下

    过滤当前目录下链接,过滤串填“\@”即可


    \$

    过滤一级域名

    过滤一级域名,过滤串填写“\$”即可