目录
    2.1.3 从【链接列表】跳转采集正文
    视频教程:模板下载:

    凤凰网(http://tech.ifeng.com/)

    一.网站内容

    1.网站截图说明

     

    2.采集结果截图

     

     

    二.操作方法

    1.新建任务

     

    ①点击【采集配置】-【任务列表】中的“+”,新建采集任务。

    ②采集地址中输入需要采集的网页地址。

    采集列表链接,所以此处需要勾选【抽取链接】-【网页所有链接】。

     

    2.链接抽取配置

     

    选择地址过滤,过滤方式为普通过滤,过滤规则为包含“/c/7”,过滤出需要的链接,最后点击右上角的【采集预览】查看是有内容。

    3.采集预览

     

    4.数据抽取

    采集正文数据需要进入详情页面。

    ①在模板抽取配置中,右键选择添加模板,或点击第一个按钮添加。

     

    ②在新模板右键添加数据抽取,或点击第三个按钮添加。

     

    ③模板属性配置要勾选数据抽取并填写数据抽取示例地址。

     

      

    5.配置表结构

     

    如图示点击【采集配置】-【数据建表】,【采集表结构】“+”按钮,新建表结构,可以自定义名称。

    根据所需内容,配置表结构字段,此处配置了包括主键、文章标题、作者、发布时间、文章内容。表结构建立如下:

     

    hkey字段

     

    title字段

     

    author字段

     

    get_time字段

     

    content字段

    6.关联数据表

    表结构配置完毕后,需要进行数据关联,操作如下:

     

    选择所需的表结构,点击【创建】按钮。创建表名称可随意填写,需注意开头仅可使用英文字母,可加数字。中文名称不能作为表名称。

     

    7.模板预览

    通过采集预览,可以了解是否能够正确地采集到所需数据。右键选择【链接列表】-【模板预览】,可以单独预览某个模板的数据。