4.5.4 链接抽取的地址/标题过滤

核心产品

数据采集

自然语言处理

数据分析

大数据配套服务

数据治理

大数据引擎

ForeSpider数据采集引擎

ForeChart可视化图表

大数据应用

AI舆情监测系统

预荐云数据系统

知析智能分析报告

消费品分析报告

行业分析报告

跨境电商分析报告

大数据底层技术

国产化ForeLib分析型数据库

国产化ForeServer服务器软件

国产化KSP大数据开发语言

ForeSpider软件

ForeSpider数据采集引擎

ForeSpider下载

ForeSpider功能列表

ForeSpider产品优势

采集服务

定制采集模板

定制数据采集方案

服务器集群采集

AI自动配置成批网站

采集某类特征的数据

采集策略场景化分析

软件学习

图文教程

视频教程

脚本教程

采集模板下载

新闻媒体类

电商平台类

企业信息类

智能分析

多语言全文检索

用户画像分析

多语言分词

评价内容解析

典型意见归纳

智能文本分类

特征提取

联系方式提取

特征信息提取

实体词提取

智能计算

智能推荐引擎

国产化ForeLib分析型数据库

国产化ForeServer服务器软件

国产化KSP大数据开发语言

数据可视化

ForeChart数据可视化引擎

企业关系图谱

数据分析应用

AI舆情预警系统

知析智能分析报告

消费品分析报告

行业分析报告

跨境电商报告

定制智能分析报告

预荐云数据系统

行业竞品分析

电商快消品分析

搜索引擎排名分析

系统集成服务

系统定制开发

营销方案定制

代码工具

时间戳转换工具

进制转换工具转码工具

px转换vw

颜色转换

Json格式化工具

Base64转码

编码转换

邮箱加密

Excel/csv数据转json格式工具

压缩和格式化工具

推算日期及计算日期差

密码生成器

个人所得税计算

去除重复项

字数统计工具

html转换成其它语言

面积单位换算

摩斯密码翻译器

vw和px之间的批量转换

正则表达式在线代码生成工具

智能数据中台

元数据管理

数据标准管理

主数据管理

数据质量管理

数据资产管理

数据安全管理

数据生命周期管理

行业解决方案

通用解决方案

数据解决方案

金融方案

风控反欺诈

股票量化交易

银行智控系统

制造业&物流

企业数字化

企业数据治理

医疗方案

政务方案

警务智能决策

政务数据安全

实时监测

舆情监测系统

产品/竞品监测系统

股票监测系统

政策监测系统

招投标监测系统

智能分析

行业全息分析

地理信息分析

数据智能挖掘

主题自动分类

挖掘特征信息

全网自动采集

海量网站自动配置

全网挖掘特定信息

场景智慧采集

商品与评论全览

纵观金融财经动态

企业工商全方位掌握

精准获取客户信息

实时掌控舆情信息

竞品情报实时获取

搜索引擎全网采集

主题识别采集

识别标题语义采集

识别正文主题采集

(不)含特定关键词采集

微信登录
账号登录
手机号登录

扫码立即登录

忘记密码？没有账号立即注册

忘记密码？没有账号立即注册

大数据产品

消费品分析报告

行业分析报告

跨境电商报告

聊天机器人

联系我们

咨询电话(周一至周五9：00-18：00)

022-2345 2937

185 2247 0110

business@forenose.com

QQ：2779623375

用户QQ群3：606835039

用户QQ群4：795287153

订阅号

服务号

客服微信:qianxiu0106

ForeSpider

数据采集引擎

教程列表

目录

4.5.4 链接抽取的地址/标题过滤

视频教程：模板下载：

为了在抽取的链接中去除无关链接，有两种过滤方式，配置方式相同。

①地址过滤：通过url地址的规律，过滤无关链接。

选择地址过滤，过滤方式为普通过滤，过滤规则为包含“/c/7”，过滤出需要的链接，最后点击右上角的【采集预览】查看是有内容。

【采集预览】

②标题过滤：通过链接标题的规律，过滤无关链接。

1.地址/标题过滤的配置内容

序号	名称	描述
1	过滤方式	①普通过滤：软件自带过滤方式，使用通配符作为过滤串进行过滤。 ②正则过滤：使用正则表达式进行过滤。 ③脚本过滤：利用内置脚本过滤字符串，点击“创建脚本”编写。
2	过滤规则	①包含：留下“包含过滤串”的链接。 ②排除：留下“不包含过滤串”的链接。
3	过滤串	填写过滤串进行过滤。

2.过滤串规则说明

序号	过滤符	含义	举例
1	;	用“;”隔开多个过滤串，会过滤掉同时满足各个过滤串的字符串，表示“与”。	过滤空链接/空标题，过滤串填“;”即可
2	,	表示“或”。	过滤或，甚至更多项时，在各项之间填写“，”即可
	（）	规则组合，规则优先	如果存在多个规则组合情况，将想要优先的规则用（）标注，即可优先该规则
	^	表示“非”。过滤规则选择“排除”，“排除非”表示“或”。	字符串abcde包含a或b：规则选择“排除”，过滤串填“^a;^b”
	\d	表示一串（个）数字	如2015-10/26 => \d-\d/\d 如123456874 =>\d
	\D	表示时间、日期	如2015-10/26 => \D
	\X(x)	16进制数（0~9或A（a）~F（f））	31 => \x1F
	\c	表示一串（个）小写字母	news.xinhuanet.com => \c.\c.\c/\c
	\C	表示一串（个）大写字母	NEWS.XINHUANET.COM => \C.\C.\C
	\s	表示一串（个）有小写或大写字母的字符	News.XinHuaNet.com => \s.\s.\s
	\S	表示一串（个）有小写、大写字母或数字的字符	Politics2015-10/26 => \S-\d/\d
	\w	字母、数字、下划线、减号、$	Ern8_78wednfn=>\w
	\e	字符串终止符，表示过滤串后不包括其他文本	News.XinHuaNet.com => \s.\s.\s\e
	\E	文件结束（忽略所有请求参数）
	\#	host过滤当前域名下	过滤当前域名，过滤串填“\#”即可
	\@	过滤当前目录下	过滤当前目录下链接，过滤串填“\@”即可
	\$	过滤一级域名	过滤一级域名，过滤串填写“\$”即可