目录
    1.1.1 爬虫能做什么?
    视频教程:模板下载:

    1.爬虫是什么?

    爬虫是一个自动采集全网公开数据的软件,它根据既定的抓取目标,有选择的访问网上的网页与相关的链接,获取所需要的信息。

     

    2.爬虫可以采集的范围

    凡是通过浏览器可以公开访问的内容,都可以大批量采集下来。

    前嗅ForeSpider可以实现:

    (1)需要登录或自动获取cookie的网站

    前嗅ForeSpider支持自动登录,自动获取cookie信息。

    (2)需要输入验证码采可见的数据

    可接入第三方打码平台,最多3秒自动返回打码结果。

    (3)搜索栏检索关键词的数据

    支持各种搜索栏检索关键词,可批量导入数十万关键词。

    (4)各种协议的网站数据

    支持http、https、各类APP的协议等。

    (5)JavaScript和Ajax动态生成的内容

    支持所有JavaScript生成的动态内容。

    (6)需要用IP代理的网站

    支持IP代理,不用担心封锁IP。

    (7)post请求和get请求

    支持post请求和get请求的网页。

    (8)OAuth认证

    支持OAuth认证的网页。

    (9)搜索引擎全网数据挖掘

    可以通过一个模板,采集搜索引擎,挖掘所需数据。

    (10)采集境外网站

    可以采集境外的网站内容。

    (11)采集本地文件

    可采集本地文件的内容。

    (12)采集内网网站

    可采集内网网站的内容。

    (13)采集瀑布流翻页

    可采集瀑布流翻页的网站内容。

     

    3.爬虫不能采集的范围

    (1)非公开数据

    网络爬虫技术是一种批量数据下载技术,不是黑客技术,只能采集前端浏览器上能显示的数据内容,对于网站的服务器后端数据,如用户数据等,是不能采集的。

    对于需要账号登录才能查看的内容,如果您有账号可以登录,是可以采集该账号下可见数据的;对于其他账号下的内容,也同样不能够采集。

    (2)需要手机扫码的数据

    对于需要扫码后才能显示的数据,无法实现批量采集。

    (3)对于账号有权限限制的数据

    有些网站限制一个登录账号一天只能查看x条数据,如果用户没有多余的账号,是无法突破这样的限制的。

    (4)需要登录,但是没有账号密码

    有些网站登录之后才可以看到信数据,没有账号和密码,爬虫是没有权限进行此采集的。

    (5)需要付费的信息

    付费会员采集可以看到的数据,或者需要付费购买的数据,爬虫没有权限进行采集。

    (6)网站的后台数据

    网站后台的数据为非公开数据,爬虫不能进行采集。

    (7)网站的注册数据

    网站/APP等注册用户数据,属于隐私数据,爬虫不能进行采集。

    (8)其他涉及侵犯第三方版权的内容