目录
    5.4.5 常见反爬策略及解决方案
    视频教程:模板下载:

    常见的反爬策略及解决方案有以下几种:

    1.仅限制用户IP访问频率

    限制IP访问频率通常表现为:当使用本地IP采集速度高于某频率时,就会出现采集错误,页面重定向等情况。当访问者IP信息存储在cookie中时,会增加爬虫难度,具体解决方案如下:

    ①cookie中没有记录IP时

    需要使用动态短效代理IP/隧道代理IP,根据网站限制IP强度,调整采集速度,购买适量代理IP。

    ②cookie中记录IP时

    需要使用静态长效代理IP,根据网站限制IP强度,调整采集速度,购买适量代理IP。


    2.限制用户ID访问频率

    限制用户ID通常表现为:采集一段时间后,停止采集/采集错误,浏览器中该页面显示不出来(页面重定向、有验证码、错误页面等情况),清空浏览器浏览记录后,再次打开又可以正常显示。

    这时可以看页面的cookie来确认服务器是否限制用户ID,当访问页面的cookie中有UID或其他ID字符串时,表示服务器对用户ID有识别。还有一种对UID加密的情况,这时cookie中有一串加密后的字符串。

    解决方案:使用高级设置中的多通道采集功能,并设置最大登录用户数,设置代理IP(使用静态长效代理IP),通过模拟多用户浏览网站,来解决网站对ID的限制。


    undefined


    undefined


     

    3.用户IP访问频率用户ID访问频率双重限定

    双重限制通常表现为:采集一段时间后,停止采集/采集错误,浏览器中该页面显示不出来(页面重定向、有验证码、错误页面等情况),清空浏览器浏览记录后,再次打开又可以正常显示。爬虫设置为多通道采集后采集一段时间发现IP被封了。也可通过观察页面cookie中是否既有IP又有UID/UID加密的信息,来进行判断。

    解决方案:使用高级设置中的多通道采集功能,同时打开动态IP锁定,设置好代理IP(使用静态长效代理IP),并设置最大登录用户数,来解决网站对账号的限制。如下图所示:


     

    高级配置


     

    运行设置


    4.限制用户账号访问频率

    一般表现为:网站需要登录,登录后采集账号被封。这种情况一般是由于服务器识别用户账号,并限制用户账号访问频率导致的。

    解决方案:注册多个账号,供封号后替换使用;


    5.用户账号访问频率和用户IP访问频率双重限制

    一般表现为网站需要登录,登录后采集账号被封,IP也被封。使用多通道或者用代理IP采集均无效果。这种情况是由于服务器对用户账号和访问IP双重限制导致的。

    解决方案:注册多个账号,供封号后替换使用;降低采集速度,使用静态长效代理IP进行采集。