第一章 采集配置

1.4.3 采集链接中的数据

示例网址:智联招聘(http://jobs.zhaopin.com/604443225251908.htm?ssidkey=y&ss=409&ff=03)

1.创建链接抽取

根据1.4.2创建链接抽取。

2.建立数据抽取

模板2的示例地址,一定是下一层级打开的网页,即数据页的地址。

在模板2下创建一个数据抽取。以取职位月薪以及职位描述与为例:

【新建数据抽取】

3.创建表单(>>详情:表单配置)

首先建一个主键字段:

【创建主键字段】

然后建一个职位月薪的字段,字段名称可以随意:

【创建字段1】

职位描述因为是一大段文字,所以可以选择变长字段:

【创建字段2】

4.连接数据库:

可以选择自动带的ForeLib数据库,也可以配置其他数据库。以ForeLib为例,其他数据库见>>详情

【连接数据库】

使用ForeLib数据库直接点击打开即可。

5.关联数据表:

点击创建,创建一个数据表,点击数据表前的对勾,关联数据表。采集的数据就可以存在新建的这个数据表中了。>>详情

【关联数据表】

6.选择表单

回到模板配置,点击模板2的数据抽取节点。放好示例地址,点击数据抽取,选择表单

【选择表单】

7.字段定位取值:

在内置浏览器上,按住Ctrl点击对应字段的内容,点击确认选区。

因为职位描述内容比较多,所以按住Ctrl选区之后,还需要按住Shift再次点击选区,以此扩大选区。

【字段定位取值】

这样操作之后,采集预览,就会发现已经取到需要的数据了。

【采集预览】