第一章 采集配置

1.4.5 采集带有特征性文字的内容

示例网址:智联招聘:(http://jobs.zhaopin.com/604443225251908.htm?ssidkey=y&ss=409&ff=03)

如智联招聘的职位月薪、工作地点、最低学历等,都有固定的标题(如工作地点:),属于特征性的文字。

这类数据,由于每个详情页出现的顺序可能不同,甚至有的页面可能会缺少其中几项,导致每项的位置不固定。可以用特征定位来采集。

操作步骤:

1.首先按住Ctrl点击需要采集的数据,如“工作地点:”后面的“天津”,这时在“天津”上出现一个绿框。

2.然后点击“识别特征”按钮,这时在“天津”上又出现了一个红框。

3.再次点击,红框移动到“工作地点:”上,这时特征文字已经被红框选中,所需内容“天津”仍在绿框中。完成配置。

【特征定位】