目录

    采集网站

    【场景描述】采集网易新闻数据。

    【源网站介绍】网易是中国领先的互联网技术公司,为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量。

    【使用工具】前嗅ForeSpider数据采集系统,免费下载:

    http://www.forenose.com/view/forespider/view/download.html


    采集网站

    【入口网址】https://www.163.com/

    【采集内容】

    采集网易新闻网中新闻的标题、发布时间、来源、正文。


    【采集效果】如下图所示:


    思路分析

    配置思路概览:


    配置步骤

    1. 新建采集任务

    选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。


    2.抽取新闻链接

    ①点击采集预览,观察新闻链接的规律,发现新闻链接中都包含【article】。


    ②在地址过滤处,设置为包含【article】,保存后,重新测试,发现所有新闻链接被过滤出来了。


    3.新建数据抽取

    ①新建模板02,在其下新建一个数据抽取。


    ②数据建表,按照下图所示建数据表。(注意字段属性等应严格按照下图进行设置)


    ③将新建好的数据表,关联到模板中去,如下图所示:


    ④填写示例数据,采集预览,复制任意一条新闻链接。


    ⑤将链接粘贴到本模板示例地址中,并双击内置浏览器空白部分,加载本链接。


    ⑥关联模板

    将模板01抽取到的新闻链接,关联模板02。


    ⑦数据取值

    title字段如下所示:


    Pubtime字段如下所示:


    Author字段取值:


    News字段同上。

    ⑧采集预览

    采集预览,能预览出所要采集的新闻字段,则表示配置成功。


    采集步骤

    模板配置完成,采集预览没有问题后,可以进行数据采集。

    ①建立数据表单:

    选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【wangyi】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。


    ②开始采集

    选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。


    ③导出数据

    采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。



    ④导出的文件打开如下图所示:


    *本教程仅供教学使用,严禁用于商业用途!