1. 创建代理IP
如下图所示创建代理IP。
【创建IP代理资源】
①名称:自定义即可,可由文字、字母、其他符号等组成;
②类型:有静态代理和动态代理,根据在爬虫中的动静态规则选择合适的代理类型。
③请求频率:是指ForeSpider运行时调用每个代理IP的频率,爬虫运行时,线程数目=请求频率*代理IP数。
比如:接入了一个每秒请求10个IP的代理,设置的请求频率为5。那么爬虫运行时,每秒请求50次代理IP,这时候采集运行速度中的线程数目最佳为50。
2.选择IP混用策略
代理IP混用策略有以下三种:
【本机IP混用策略】
①采集禁用本地IP:设置后采集只用代理IP,如果代理IP失效或未开启,则会采集失败。
②代理失败使用本地IP:代理IP失效或者失败后会直接使用本地IP进行采集。
③只使用本地IP:设置后采集时仅用本地IP。
3.配置静态代理IP
【配置静态代理】
需要填写以下参数:
①IP地址:代理IP服务商提供。
②端口:代理IP服务商提供。
③类型:根据要采集网站类型来选择,有http和https类型;
④有效时长:可理解为到期时长,非必填。当同时使用多个代理IP且到期时长不一致时可以根据实际情况填写,有效期到则自动停止使用该代理IP;当有效时间在1天以内时,建议填写,防止出现代理IP到期,爬虫还在运行而导致采集失败的情况。如果不填写,需要在代理IP到期之前手动关闭,否则会导致采集失败。如下图所示:
⑤用户名:代理IP服务商提供。
⑥密码:代理IP服务商提供。
填写完之后在需要使用的代理IP前打上对勾,打开代理IP按钮,后保存。如下图所示:
4.配置动态代理IP
①协议类型:默认http/https,两种协议均支持。
②返回格式:是指返回IP格式,包括TXT和未知格式,选择TXT格式即可返回TXT格式,TXT格式可以不用写脚本获取IP。
③刷新周期:请求调用API的频率,单位是毫秒,根据实际购买情况来填写即可。
④请求地址:填写API链接即可。
填写完以上信息后可点击【测试】按钮进行测试,测试结果会显示在屏幕下方。测试成功后,确认勾选所用代理IP,点击保存按钮,如下图所示: