目录

    360问答(https://bbs.360.cn/forum-231-1.html)为例。

    一.网站结构

    1.网站截图说明

    某些网站需要登录后才可进行内容的采集,登录时需先对登录信息输入位置进行定位,便于后续采集。

     

    【网站登录页】

     

    【采集列表页】

    2.采集结果截图

     

    【检索列表链接】

     

    【检索结果数据】

     

    二.配置模板

    1.新建任务

     

    【新建任务】

    2.新建采集任务

     

    【新建采集任务】

    本次采集列表下的正文数据,所以本次需要抽取内容选择【链接列表】,为了将每一页的内容都成功采集选择【普通翻页】。

    3.配置登录

     

    【网站登录界面】

    ①内置浏览器找到登录按钮,弹出登录框。

     

    【网站登录顺序】

    ②先点击【用户名】。

     

    【输入框定位】

    ③如上图,对【用户名输入框】进行定位,crtl+左键点击【用户名输入框】的位置,直至被绿色框住代表定位成功,并按此方式完成密码的位置定位。

     

    【定位成功界面】

    ④【用户名】和【密码】定位完成后,点击完成,cookie配置框中出现数据,按Ctrl+鼠标左键单击“登录按钮”,内置浏览器页面登录成功,配置完成。

    4.配置模板

     

    【采集预览】

    ①点击采集预览,在采集预览中有于目标链接相似的其他链接,可通过地址过滤得到列表链接。找到所需要的列表链接,观察得出所需要的目标链接都包含“thread-”。

     

    【地址过滤】

    ②勾选地址过滤,过滤规则选择包含,填入“thread-”。

     

    【标题过滤】

    ③勾选标题过滤,过滤规则选择包含,填入“下一页”。

     

    【采集预览】

    ④点击采集预览,下一页和包含"thread-"的内容都被成功过滤,如下图:

    5.模板关联

            

    【模板关联1】

    根据网页跳转规律,将【链接列表】关联【链接列表:02】,【普通翻页】关联【默认模板:01】,此处软件已自动进行了关联,如果配置时发现关联有问题,可自行进行更改。

    6.数据抽取

     

    【数据抽取】

    将模板一过滤得到的任意一条链接,作为链接列表模板的示例地址。如:https://bbs.360.cn/thread-15646770-1-1.html

    7.新建数据抽取

     

    【新建数据抽取】

    新建数据抽取。直接点击链接列表,点击上面“新建数据抽取” 按钮,得到数据抽取。

    8.创建/选择表结构

    ①创建表结构

     

    【创建表结构】

    ②配置表结构

     

    【配置表结构】

    根据所需内容,配置表结构字段,此处配置了包括网页主键、发布时间、正文内,网页标题以及网页地址五个字段,以配置发布时间(pubtime)为例。

    ③数据抽取节点,关联表结构。

     

    【关联表结构】

    选择刚才新创建的表结构“360问答”。

    9.字段定位

     

    【字段定位】

    主键字段自动生成无需定位,以pubtime字段为例进行定位,如下图所示,将各字段依次定位。

    10.采集预览

     

    【采集预览】

    字段定位完成后,进行采集预览,查看是否所需内容都被采集进来。