社区>>ForeSpider爬虫数据采集专区>>采集策略相关概念
采集策略相关概念

13494浏览量

1评论

<<返回列表

hx932010@163.com发表于2017年1月19日20:39:1最后回复于2017年1月19日 20:40:24

《模板相关概念》<<上一篇

《请问可以采京东数据吗》下一篇>>

1.线程数目

是运行采集任务时,软件启用的线程资源数目。线程数目越大,采集速度越大。用户可以根据自己的硬件配置调大线程数目,以加快采集速度。具体的数目设置可以参考任务管理器的CPU和内存占用率,不要一味求快导致资源耗尽,使软件和计算机崩溃。

如果使用了频道脚本,则线程数目无效,只能为单线程。

2.采集策略

采集策略是根据记录的采集日志,选择下次采集任务的采集策略。包括不重采数据页、继续上次采集、更新数据页面、全部重采等。

3.历史日志装载策略

选择装载到日志列表的内容,即历史数据。

4.超时

接收超时:当对方服务器繁忙时,可将接收超时的时间调大,否则软件在超时后将不再接收该链接地址的数据。

发送超时:当采集的数据包过大时,可以将发送超时的时间调大。

5.重定向

重定向就是通过各种方法将各种网络请求重新定个方向转到其它位置。(如:网页重定向、域名的重定向、路由选择的变化也是对数据报文经由路径的一种重定向。)

6.IP代理

代理可以代理网络用户去取得网络信息。形象的说:它是网络信息的中转站。可以突破自身IP访问限制。


相关评论

+  写评论

    私信

    举报

    回复

    举报

    私信

    举报

    回复