目录
    5.4.1 如何选择IP代理
    视频教程:模板下载:

    由于网站防爬功能日益加强,如果只用一个本地IP采集的话很容易被封IP,导致无法正常访问网页,所以为了防止被网站发现是机器在取数据,需要不断的更换IP,这个时候就用到了代理IP。

    1.判断网站是否需要代理

    ①采集各大著名网站基本都需要代理IP。

    ②使用1个线程采集都会封IP的网站,需要使用代理IP。

    ③需要提高采集速度,但是一提高就会封IP的网站。


    2.计算需要购买多少代理IP

    ①根据网站的反爬程度,大致得出一个封IP的严重程度。

    ②先少购买一点代理IP,首先放慢速度采集,调低线程数目和采集间隔,采集状态正常就调高一点,慢慢找到临界状态,然后稳定在这个速度。

    ③如需提升采集速度,则按照上述测算出的速度和IP量的比例,同比计算。


    3.购买动态还是静态代理

    购买哪种代理要根据网站的情况。

    ①动态代理:大部分网站都可以用动态代理,通常按切换频率、提取数量和使用时长计费。动态代理可以按照一定频率和数量自动从IP池中切换,重复率低,价格略高。

    ②静态代理:静态代理不自动切换,通常按量和时长购买,当网站在Cookie中记录了访问者的IP时,不能用动态代理,需要使用静态代理。


    4.购买http还是https代理

    看网站的网址是http还是https开头的,对应买相应的代理。

    IP是上网需要唯一的身份地址,身份凭证,而代理IP就是我们上网过程中的一个中间平台,是由本机电脑先访问代理IP,之后再由代理IP访问目标网站页面,所以在这个页面的访问记录里留下的是就是代理IP的地址,而不是本机IP。代理IP根据协议可分为http协议代理、https协议代理和socket5代理。


    5.VPN与代理IP有什么区别

    VPN一般仅有一个IP,不适宜用于爬虫采集。