第一章 采集配置

1.4.2 翻页采集网页中的链接

示例网址:智联招聘

(http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E9%80%89%E6%8B%A9%E5%9C%B0%E5%8C%BA&kw=java&p=1&isadv=0)

有些网站链接列表页有很多页码,这时就需要单独抽取一下翻页链接。

软件默认添加了两个模板,模板1默认有一个链接抽取,模板2默认有一个数据抽取。模板1的示例地址默认为采集任务的地址。

1.再创建一个链接抽取

在模板1已经默认存在的链接抽取中,抽取出网页的所有职位链接。

然后再为模板1新建一个链接抽取,抽取翻页。

【新建链接抽取】

2.关联模板

(1)职位链接

对于“职位链接”这个链接抽取来说,职位的超链接点击后,打开的是职位的详情页,也就是展示具体数据的数据页面。该层级页面,可以挑选出一个页面,作为模板2的示例地址。

因此“职位链接”需要关联的模板是,模板2。关联模板2后,采集所有的职位链接,都会自动跳转到职位详情页。

(2)翻页

对于“翻页”这个链接抽取来说,应该关联模板1自身。因为点击翻页跳转的还是本页面,并不会进入下一层级页面,所以翻页应该关联自身层级。

【关联模板】

3.过滤链接

第一步:在链接抽取处进行采集预览(或点击右键进行模板预览),找到翻页的链接,观察链接包含的特征。

【翻页链接】

第二步:观察链接特征,发现都包含&p=2,所以可以在地址过滤那里写上过滤串“&p=\d\e”(其中\d代表数字,\e代表结束符),选择“包含”,在链接抽取中选中翻页,点击重新测试。

【地址过滤】

但是可以看到有残留的无关链接,可以使用标题过滤将他清除,在标题过滤处写上“不限”,然后选中排除。记得链接抽取,要选中翻页。保存后重新点击测试。示例2完成。

【标题过滤】