目录

    https://so.gushiwen.org/search.aspx?value=%E7%9B%B8%E6%80%9D

    一.网站内容

    1.网站截图说明

    本教程通过“古诗文网”官网来采集所需“关键词”的正文数据,本教程以关键词“相思”为例,故链接入口为:   https://so.gushiwen.org/search.aspx?value=%E7%9B%B8%E6%80%9D

    在官网输入关键词“相思”:

     

    2.采集结果截图

     

     

    二.操作方法

    1.新建任务

     

    ①点击【采集配置】-【任务列表】中的“+”,新建采集任务。

    ②采集地址中输入需要采集的网页地址。

    ③勾选“关键词采集”,此步骤不可省略否则无法获取我们所需的数据,完成后点击“下一步”。

    同时采集正文数据和列表链接,所以此处需要勾选【抽取链接】-【网页所有链接】、【抽取数据】,点击完成即可。

     

    2.关键词配置

     

    ①选择【模板抽取配置】-【古诗文网】。

    ②在【关键词配置步骤】-点击关键词-Ctrl+左键“关键词输入框”,点击完成。

    ③一般情况就配置完毕了,可以采集预览看是否成功。如果有些网站仍然没有结果,需要在【高级设置】中配置关键词参数。

     

    ④配置完成,在关键词列表中输入“相思”。

    注:在操作过程中可以随时点击“保存”,随时保存进度。

    3.链接抽取

     

    ①点击【模板抽取配置-【链接抽取:网页全部链接】。

    ②选择【地址过滤】-过滤方式为“普通过滤”,过滤规则选择“包含”,过滤词为“value”。

    ③配置完成后点击保存。

    4.数据建表

     

    ①选择【采集配置】-【数据建表】。

    ②在【采集表结构】选择“+”,新建表结构并自定义名称,这里取“古诗文”

    根据所需内容,配置表结构字段,此处配置了包括主键、诗词标题、诗句、作者。表结构建立如下:

     

    字段名称:id

    A.采集内容:选择“主键”,此处选“网页主键”。

    B.数据类型:选择“长数字”。

    C.字段属性:选择“索引字段”、“键值唯一”、“主键字段”。

     

    字段名称:title

    A.采集内容:选择“选区内可见文本”。

    B.数据类型:选择“字符串”。

    C.数据长度:30。

     

    字段名称:author

    A.采集内容:选择“选区内可见文本”。

    B.数据类型:选择“字符串”。

    C.数据长度:10。

     

    字段名称:content

    A.采集内容:选择“选区内可见文本”。

    B.数据类型:选择“字符串”。

    C.数据长度:10。

    5.关联数据表

     

    ①选择新建的“古诗文”,点击【关联数据表】-【创建】按钮。

    ②选择所需的表结构,点击【创建】按钮。创建表名称可随意填写,需注意开头仅可使用英文字母,可加数字。中文名称不能作为表名称。

    ③创建完成后勾选数据表关联完成。

     

    6.字段配置

    选择【古诗文】,在【数据属性配置】中关联数据表结构“古诗文”。

     

    ①title字段:

    A.点击左侧【数据抽取】-“title”字段。

    B.Ctrl+左键选择该字段对应的区域。

    C.点击“确认选区”即可完成。

     

    ②Author字段:

    A.点击左侧【数据抽取】-“author”字段。

    B.Ctrl+左键选择该字段对应的区域。

    C.点击“确认选区”即可完成。

     

    ③content字段:

    A.点击左侧【数据抽取】-“content”字段。

    B.Ctrl+左键选择该字段对应的区域。

    C.点击“确认选区”即可完成。

    5.采集预览

    选择右上角【采集预览】即可查看数据采集情况。