ForeSpider采集预览

采集预览

添加链接抽取后,点击软件右上角的“采集预览”按钮,弹出采集测试结果。在没有进行过滤的情况下,会采集到该地址下所有的链接信息。

点击右上角的“采集预览”可以看到采集源地址能够下载的所有链接。(如果入口页是数据页,没有链接,就不会有链接地址,需要配置数据抽取才能看到数据。)

看到此时的采集状况,可以帮助判断:

1.该频道是否可以通过可视化采集。如果没有任何预览结果,或者在浏览器上有某些链接而这里没有,说明这些链接可能是由JavaScript生成的,需要写脚本才能采集。

2.需要过滤哪些链接。网站上会有一些与采集需求无关的链接,如“收藏本页”、“登录”等,为了提升采集的速度和精度,需要过滤无关的链接。使用下文介绍的过滤方式来过滤链接,需要总结有用链接的url地址/标题规律(或无关链接的地址规律),再具有针对性地填写字符串。(详情参加下一章)

【采集预览-人民网】