ForeSpider软件简介

软件用途

ForeSpider数据采集系统是天津市前嗅网络科技有限公司自主知识产权的通用性互联网数据采集软件。软件具备全面的采集范围、精准的数据精度、绝佳的抓取性能、简易的可视化操作、智能的自动化采集,使企业能够以很少的人工成本,快速获取互联网中结构化或非结构化的数据。

软件几乎可以采集互联网上所有公开的数据,通过可视化的操作流程,从建表、过滤、采集到入库一步到位。软件首创了面向对象的爬虫脚本语言系统,如果有通过可视化采集不到的内容,都可以通过简单几行代码,实现强大的脚本采集。软件同时支持正则表达式操作,可以通过可视化、正则、脚本任意方式,实现对数据的清洗、规范。

台式机单机采集能力可达4000-8000万,日采集能力超过500万。服务器单机集群环境的采集能力可达8亿-16亿,日采集能力超过4000万。并行情况下可支撑百亿以上规模数据链接,堪与百度等搜索引擎系统媲美。

一.软件可以采集的范围:

1.登录和cookie

支持自动登录,自动获取cookie信息。

2.验证码

接入第三方打码平台,最多3秒自动返回打码结果。

3.搜索栏检索

支持各种搜索栏检索关键词,可批量导入数十万关键词。

4.各种协议

支持http、https、各类APP的协议等。

5.JavaScript和Ajax动态生成的内容

支持所有JavaScript生成的动态内容。

6.IP代理

支持IP代理,不用担心封锁IP。

7.post请求和OAuth认证

支持post请求和OAuth认证的网页。

8.搜索引擎全网数据挖掘

可以通过一个模板,采集搜索引擎,挖掘所需数据。



二.软件不能采集的范围:

1.非公开数据

网络爬虫技术是一种批量数据下载技术,不是黑客技术,只能采集前端浏览器上能显示的数据内容,对于网站的服务器后端数据,如用户数据等,是不能采集的。

对于需要账号登录才能查看的内容,如果您有账号可以登录,是可以采集该账号下可见数据的;对于其他账号下的内容,也同样不能够采集。

2.需要手机扫码的数据

对于需要扫码后才能显示的数据,无法实现批量采集。

3.对于账号有权限限制的数据

有些网站限制一个登陆账号一天只能查看x条数据,如果用户没有多余的账号,是无法突破这样的限制的。