ForeSpider配置模板

配置模板

流程:创建模板->输入示例地址->链接页:(创建链接抽取->选择关联模板->地址/标题过滤);数据页:(创建数据抽取->选择表单->字段取值)。

作用:模板通过一个示例地址,模板化同一层级的页面,从而达到批量采集的效果。一个模板对应一个层级的页面,因此同一层页面只能配置一个模板,填写一个示例地址,但是一个模板中可以创建多个链接、数据抽取,每个链接抽取都要关联其他模板。

【模板配置页面】

网站从入口页到数据页,一般会有多层的链接跳转。我们为每一层级页面都对应的建立一个模板,每个模板对应该层级的一个示例地址,模板化同一层级的页面,从而达到批量采集的效果。

网站的页面分为三类:入口页、链接页和数据页。

对于入口页,为该模板找到与下一层级的关联关系。通过点击链接能够跳转到下一层级的,为该模板建立链接抽取;通过关键词搜索能够跳转到下一层级的,为该频道配置关键词搜索。

对于链接页,为该模板创建链接抽取,通过过滤串来过滤无关链接,每个链接抽取都要关联其他模板,形成网站上原有的链接跳转关系,完成各层级页面之间的关联关系。

对于数据页,为该模板创建数据抽取,选择对应的表单结构,然后通过定位数据,为表单字段取值,获得数据。

一个采集频道可以对应多个模板,一个模板只能对应一个示例地址。通过选取一个具有代表性的页面,为其配置合适的模板,可以采集到网站上与该示例地址层级相同的页面内容。


用户在进行模板配置之前,先浏览该网站,观察如何从入口页点击到数据页。中间经历了几层页面,就对应着创建几个模板;各个页面之间如何连接,就对应着模板之间的关联情况。从每一层级选择一个有代表性的网址,作为该模板的示例地址。

例如淘宝首页作为一个入口页,某类商品列表作为链接页,某商品详情作为数据页,模板的配置关系如下:

模板 类型 描述 示例地址 抽取类型 关联情况
模板一 入口页 淘宝首页 https://www.taobao.com 一个链接抽取:分类列表 模板二
模板二 链接页 商品列表 https://s.taobao.com/list?spm=a21bo.5
0862.201867-links-0.4.f42Jqp&q=%E
6%AF%9B%E8%A1%A3&cat=16&s
tyle=grid&seller_type=taobao
两个链接抽取:商品列表和翻页 模板三
模板三 数据页 商品详情 https://item.taobao.com/item.htm?spm
=a219r.lm874.14.122.oFiedu&id=540
780593215&ns=1&abbucket=15
数据抽取 商品-表单