目录
    2.2.2 采集附件及其地址
    视频教程:模板下载:


    山西招投标网http://www.sxbid.com.cn/

    一.网站内容

    1.网站截图说明

    本教程通过“山西招投标网”官网来采集 链接列表(红框位置) 中正文的附件,链接入口为:http://www.sxbid.com.cn/

     

    【官网-二手房】

    2.采集结果预览

     

     

    二.操作方法

    1.新建任务

    按图片数字所示,1-2-3完成新建任务的步骤

     

    【新建任务】

    ①按照图示1位置,点击“采集配置”。

    ②按图示2位置,点击“任务列表”中的“+”。

    ③在新建采集任务中输入采集网址即http://www.sxbid.com.cn/,任务名称可自定义,本次可输入为“中国石头招标投标网”。

    点击“下一步”,需要采集正文数据,所以此处需要勾选“网页内所有链接”和“抽取数据”。

     

    2.链接抽取配置

     

    ①按照图示1位置,Ctrl+左键选中“链接列表”。

    ②按照图示2位置,点击“确认选区”,保证我们的数据是被选中的状态。

    ③按照图示3位置点击“采集预览”,查看数据详情,如下图所示:

     

    3.数据抽取

     

    抽取数据(红框位置)中的链接 务必对应“链接列表”内的正文数据,即附件页面地址。http://www.sxbid.com.cn/f/view-860ea5181ec54cd68435893df9254c02-1916cd9114ca48d4819b89c1da635597.html

    4.配置表结构

     

    如图示点击【数据建表】:

    ①点击“采集配置”。

    ②点击“数据建表”。

    ③点击“+”,新建表结构并自定义名称,这里取为“zhaobiao”。

    根据所需内容,配置表结构字段,此处配置了包括主键、网页地址URL、标题、附件。表结构建立如下:

     

    ①主键字段:f_id

    主键务必第一个创建,其含义为该表结构所属ID

    A.采集内容:选择“主键”

    B.数据类型:选择“长数字”

    C.字段属性:选择 “索引字段”、“键值唯一”、“主键字段”。

     

    ②字段名称:url

    A.采集内容:选择“网页信息”-“网页地址”。

    B.数据类型:选择“字符串”。

    C.高级类型:url地址。

     

    ③字段名称:name1

    A.采集内容:选择“选区内可见文本”。

    B.数据类型:选择“字符串”。

     

    ④字段名称:fujian

    采集内容:选择“网页代码/图片等资料”-“数据流文件”。

     

    5.关联数据表

    表结构配置完毕后,需要进行数据关联,操作如下:

     

    选择所需的表结构,点击【创建】按钮。创建表名称可随意填写,需注意开头仅可使用英文字母,可加数字。中文名称不能作为表名称。然后就可以采集数据了。

     

    6.确认选区

    操作如下图所示:

    ①字段:name1

    A.按照图1位置,在左侧点击“name1”。

    B.按照图2位置ctrl+左键选中文章标题。

    C.最后点击“确认选区”即可。

     

    ②字段:fujian

    A.按照图1位置,在左侧点击“fujian”。

    B.在页面最低端会出现“附件下载”的位置即图2所示,ctrl+左键选中附件内容。

     

    7.采集预览

     

    “新建模板:02”处右键选择“模板预览”,即可查看是否采集出所需数据,如下图: