社区>>ForeSpider数据采集>>ForeSpider数据采集系统功能说明
ForeSpider数据采集系统功能说明

12610浏览量

1评论

<<返回列表

whlyx@qq.com发表于2017年1月19日20:35:19最后回复于2018年4月9日 18:53:8

《ForeSpider数据采集特点》<<上一篇

《模板相关概念》下一篇>>

序号

功能

详细说明

1. 

采集、挖掘、分析、存储、管理一步到位

集成前嗅自主研发的数据采集系统、数据挖掘系统、数据分析引擎、数据库和服务器,实现数据从采集、挖掘、分析到入库一步到位。

2. 

自带免费的千万级别数据库

软件自带前嗅自主研发的ForeLib数据库,免安装免配置。同时也支持MySQL和ODBC数据库。

3. 

能够采集全网100%公开数据

独创的可视化采集技术,内置自主研发的爬虫脚本语言,可以采集100%的互联网公开数据。将互联网上各网站的数据,通过采集形成数据库中结构化的数据。

4. 

通过搜索引擎采集全网数据

在百度等搜索引擎上,通过关键词检索,采集全网与关键词相关的的信息。

5. 

挖掘全网关键信息

独创通用的数据挖掘词典,根据用户需求,配置相关的关键词信息。可以在采集的同时,精准挖掘全网的关键信息。

6. 

自动完成大数据分析和趋势预测

软件与前嗅的ForeAna数据分析系统对接,可以在采集的同时实现数据的自动分类、统计、舆情分析、聚类分析、预测分析、抽样分析、对比分析、相似分析、关联分析、时间序列分析、空间分析、贝叶斯分析、神经网络分析等。

7. 

自动排重和数据清洗

数据入库前,软件自动进行两次排重,确保数据更新不遗漏。同时可按照配置,在采集的同时完成数据清洗和格式规范。

8. 

搜索引擎级别的采集速度

台式机单机日采集能力超过500万,服务器单机日采集能力超过4000万。并行情况下可支撑百亿以上规模数据链接,堪与百度等搜索引擎系统媲美。

9. 

突破封锁限制

智能模拟浏览器和用户行为,自带IP代理优化加速功能,突破封锁限制。

10. 

全程关联数据库

在软件内部创建数据表和数据字段,直接关联数据库,网页数据直接存入对应数据表的相应字段。

11. 

自动过滤无关数据

根据网页结构,自动过滤无关信息,保证数据精准。

12. 

数据智能导出

数据表可根据字段名称、文件后缀、数据序号等多种方式,导出多种格式,csv、TXT等,可以在Excel工作表中浏览。

13. 

完全的配置和采集托管服务

前嗅可以根据客户需求,为客户定制数据解决方案,在客户的设备上完成配置、采集、清洗、排重和入库工作,保证客户得到一手独享数据。

�c�SAC�


相关评论

+  写评论

    私信

    举报

    回复

    举报

    私信

    举报

    回复