目录
    4.1.1 创建新任务
    视频教程:模板下载:

    通常一个采集源对应着一个任务如采集人民网就创建一个任务叫人民网

    大量网站结构相似的采集源,可以放在同一个任务中,例如要同时采集100个结构相似网站,可以把网址粘到同一个任务的采集地址中

     


    新建任务


    1.添加任务

    点击任务列表右侧”,新建一个任务。也可以通过右键或文件菜单,导入一个任务模板。

     

    添加任务


    2.填写采集地址

    在弹窗里填写采集地址任务名称

     

    填写采集地址


    采集地址指的是采集对象的入口地址,即为该网页链接(url地址)。以采集淘宝为例:

    采集整个淘宝网全部商品的信息,淘宝网首页链接就是入口地址。

    只采集“女装”类别的商品信息,“女装”首页链接就是入口地址。

    只采集某商品的评论信息,该商品的链接地址就是入口地址。

    大多数情况下,采集地址只填写一个url地址。如果链接的页面结构和层级结构是一致的,能够套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。如果不一致,需要创建新的采集任务。


    3.设置采集类型、关键词、登录

    采集类型分为两种

    默认(html):采集网站APP数据时选用。

    本地文件目录:采集本地文件目录html和xml数据时选用

    ③当采集的网站需要关键词检索时,勾选【关键词采集】。

     


    【选择关键词采集】


    ④当采集的网站需要登录后才能采集时,需要勾选手动/自动登录方式。

     


    【登录网站】


    4.选择当前页面抽取内容

    创建新的任务之后,点击“下一步”,选择页面需要抽取的内容。

     

    【选择页面抽取内容】


    根据页面内容,确定每层模板的抽取目标,每层模板都可以创建多个抽取。

    ①抽取链接:需要抽取页面上的链接时,选择创建链接抽取。如抽取该页面的链接列表和翻页,则创建两个链接抽取。

    链接抽取


    ②抽取数据:需要抽取页面上的数据时,选择创建数据抽取。

     


    数据抽取


    例如:

    需要采集新闻的正文数据,当前页面是新闻首页,汇集了新闻的链接,正文数据是通过点击新闻链接才能进入的,所以本页面需要选择“抽取链接”中的“链接列表”。

    【抽取链接】


    点击“完成”,软件自动创建对应的抽取内容的模板。

     

    【抽取模板


    软件预置了一些常见的链接页面场景,此时勾选链接列表,软件会自动建立一个链接抽取。如需继续添加抽取方式,可以自行手动进行添加。如下图所示:

     

    添加抽取模板