ForeSpider模板介绍

模板介绍

模板通过一个示例地址,模板化同一层级的页面,从而达到批量采集的效果。一个模板对应一个层级的页面,因此同一层页面只能配置一个模板,填写一个示例地址,但是一个模板中可以创建多个链接、数据抽取,每个链接抽取都要关联其他模板。

通过示例地址,用模板表示网站的各层级页面。通过模板之间的关联,模拟网站各页面的跳转关系。通过链接抽取,抽出网页中的链接。通过数据抽取,抓取网页中的数据。

【模板配置页面】

网站从入口页到数据页,一般会有多层的链接跳转。我们为每一层级页面都对应的建立一个模板,每个模板对应该层级的一个示例地址,模板化同一层级的页面,从而达到批量采集的效果。

网站的页面分为三类:入口页、链接页和数据页。

对于入口页,为该模板找到与下一层级的关联关系。通过点击链接能够跳转到下一层级的,为该模板建立链接抽取;通过关键词搜索能够跳转到下一层级的,为该频道配置关键词搜索。

对于链接页,为该模板创建链接抽取,通过过滤串来过滤无关链接,每个链接抽取都要关联其他模板,形成网站上原有的链接跳转关系,完成各层级页面之间的关联关系。

对于数据页,为该模板创建数据抽取,选择对应的表单结构,然后通过定位数据,为表单字段取值,获得数据。

一个采集频道可以对应多个模板,一个模板只能对应一个示例地址。通过选取一个具有代表性的页面,为其配置合适的模板,可以采集到网站上与该示例地址层级相同的页面内容。