第一章 采集配置

1.4.1 采集网页中的链接

示例网址:凤凰网(www.ifeng.com)

1.采集预览

创建完采集任务之后,软件自动创建了两个模板,模板一已经添加了链接抽取,模板1的示例地址已经默认填写为采集地址。

在链接抽取节点,点击或右键选择模板预览,查看一下链接是否能够被抽取出来。

【链接抽取-模板预览】

【模板预览结果】

2.过滤链接

(1)观察链接特征,找出有用链接的url地址/标题规律(或无关链接的地址规律),有用的链接都具有一定的特征。如:在这里抽取新闻标题有关链接。

【需要的链接】

(2)其链接地址均为类似:http://news.ifeng.com/a/20180412/57508954_0.shtml。可以在相似的链接地址中截取任何一段具有任何强烈特征的字符串作为过滤串,例如http://news.ifeng.com/a/\d/\d_\d.shtml\e。(\d表示数字;\e表示字符串终止符)

【观察链接特征】

(3)填写过滤规则:

第一步:在地址过滤处选择“包含”,将上面的过滤串填写进去。

【填写过滤串】

第二步:当该模板有多个链接抽取时,需要选择本链接抽取。

【选择链接抽取】

第三步:点击“重新测试”按钮,出现过滤后的链接。

【重新测试】

第四步:如果过滤的链接准确,点击“保存”按钮,关闭模板预览。

【保存地址过滤】

这时地址过滤的配置区域,会出现刚才填写的过滤规则。也可以不在采集预览窗口填写,直接在配置区域填写,再点击采集预览查看效果。现在完成了示例1,抽取出来了这个页面所有需要的链接。

【配置区域】