ForeSpider可以做什么?

规模化采集互联网的公开数据-按照规整的格式存入数据库
  • 公开数据

    浏览器中,可以公开访问的信息
    登录后可以访问的信息:拥有账号
    APP、内网中的信息

  • 非公开数据

    网站后台数据:如用户信息、日志信息等
    需要登录才能访问的信息:但没有账号
    需要手机扫码后,在手机上显示的信息

做最优秀的软件,是我们的习惯

创新技术,让我们与众不同

  • 通用软件+开发平台

    • · 可视化的配置界面
    • 内置浏览器定位数据,通用采集。
      采集前预览配置结果,采集不出错。
    • · 内置独创爬虫脚本语言
    • 独创爬虫脚本语言,无需二次开发,
      灵活实现复杂的采集和数据处理功能。
  • 采集-挖掘-分析-存储一步到位

    • · 采集同时完成数据挖掘分析
    • 采集全网带有特征的关键信息。
      采集同时完成挖掘和权重分析。
    • · 内置免安装的免费数据库
    • 前嗅内置的千万级免费数据库,
      支持MySQL/ODBC。
  • 每日千万级采集速度

    • · 笔记本电脑搞定大规模采集
    • PC机采集速度:400万条/天。
      服务器单机采集速度:8000万条/天。
    • · 完善的大规模采集管理
    • 多种采集策略,保证不重采漏采。
      完善的日志管理策略,轻松管理多任务。

采集几乎100%的公开数据

可视化+脚本

强大

通用性的可视化操作+开发型的命令行

可采集网站示例

    信息查询类

    所有新闻、资讯信息网站

    文本信息类

    所有社区、论坛、博客、贴吧

    社交论坛类

    分类信息类

    通过搜索引擎,精准挖掘全网
    与关键词相关的特征信息
    采集-挖掘-权重分析同时完成,
    自动得到最精确搜索结果。

    搜索引擎全网挖掘

自由定义数据存储格式

软件只是平台,形式自己做主
  • 自由创建表结构
    • · 方式一:标准建表

      根据需要的数据格式,自由定义表结构。
      自动填充采集时间、URL地址等属性。
      定位选区,精准采集网页的文字、图片、视频等对象。
    • · 方式二:快速建表

      针对不熟悉数据库的用户,轻松选择预定义的字段结构。
      高度个性化的建表方式,实现任何数据格式要求。
  • 自由改动表结构
    • · 随时改动表结构

      表结构创建后,可以随时自由改动表结构。
      可以在配置模板前,配置后甚至采集后。
    • · 复制表结构

      可以复制其他的表结构,在原基础上改动。
  • 数据自由导入导出
    • · 数据存储格式

      数据采集的同时存入数据库,可在软件里浏览数据。
    • · 数据自由导入导出

      数据可以导出到Excel、文本文档中,图片、视频可导出。
      可以按数据条数、不同字段、同一字段的不同内容等,
      多种数据导出的划分方式,导出多个文档。
  • 一表多用,表结构模板化
    • · 各网站可以共用一个表结构

      对存储要求相同的网站,可以共用一个表结构。
    • · 一个表结构可以重复建表

      模板配置完成后,用表结构创建数据表。
      一个表结构可以创建多个数据表。
      一个表结构可以为多个采集任务建表。
  • 自带数据库,支持多种数据库
    • · 自带免费数据库

      自带前嗅自主研发的免费数据库ForeLib。
      免安装免配置,性能绝佳的千万级数据库。
    • · 支持MySQL/ODBC

      支持MySQL、ODBC数据库。
      可以定制开发其他数据库的接口。

灵活简易的配置方式

获取全面高质量的数据
  • 支持登录、关键词搜索、验证码
    • · 支持登录

      在内置浏览器按照步骤输入用户名密码,即可登录。
    • · 支持关键词搜索

      支持批量导入百万量级关键词,自动遍历采集。
      支持每次搜索都需要验证码的网站。
    • · 支持验证码

      接入第三方打码平台,支持批量识别验证码。
  • 完整构建网站结构
    • · 网站结构模板化

      每一层网页,选择一个实例网页作为模板。
      从入口页到最终数据页,有几层页面就创建几个模板。
      通过配置示例网页,完整构建网站结构。
    • · 模拟网站跳转结构

      通过模板之间的关联,可以完美模拟网站的原有结构。
      完整采集网站的全部信息,或精确采集目标信息。
  • 精确抽取网页链接
    • · 保证链接全面

      在不过滤链接的情况下,可以抽出页面的全部链接地址。
      可以通过子栏目、翻页下沉到各个页面,保证采集全面。
    • · 保证链接精准

      通过软件设定的通配符,按照URL或页面标题的规律,
      精准提取目标链接,或排除不需要的链接。
      还支持正则过滤,和内置脚本的过滤方式。
  • 精准采集页面数据
    • · 内置浏览器定位数据

      内置浏览器上定位数据,精准抽取所需数据。
      根据特征定位数据:对于位置不定的数据,
      可根据前后文的特征自动定位。
    • · 网页属性自动赋值

      对于采集时间、URL地址、网页源代码等属性数据,
      可以自动填充到对应字段,无需配置。
  • 采集同时完成数据处理
    • · 采集同时完成数据处理

      设置好字段的数据处理方式后,数据采集入库的同时,
      自动完成数据的清洗和处理,得到干净整齐的数据。
    • · 多种数据处理方式

      软件自带对字符串的处理方式,简易高效。
      还支持正则、软件自带脚本语言的处理方式。

完善的多任务采集策略

不重采,不漏采,轻松管理上万网站
  • 采集预览确保采集无误
    • · 帮助检查配置和网络问题

      输入采集地址后采集预览,查看能否采集到目标数据。
      配置过程中随时采集预览,检查配置问题。
    • · 确保数据采集准确无误

      采集预览结果和正式采集一样,只采集不入库。
      数据采集前先预览,保证数据采集准确无误。
  • 完善的日志和多任务管理
    • · 完善的日志管理

      日志记录了每一条数据的状态,全面监控采集状况。
      配合各种数据采集策略,保证数据不重采不漏采。
    • · 强大的多任务管理

      配置的频道随时可以加入到任务队列,
      可以按频道分别管理采集状况,随时中止或加入。
      持续监控数据状态,轻松处理错误状况。
  • 多种数据采集策略
    • · 不重采历史数据

      如果不需要更新历史数据,可以继续上次采集,
      或只扫描入口页和链接页,不重采数据页。
    • · 不漏采未采集数据

      对于遇到网络错误、入库错误或由于配置问题,
      未成功采集入库的数据,可以在下次采集时,
      一并加载,保证不漏掉任何一条数据。
  • 设置自动运行采集
    • · 高效运行采集任务

      软件按照配置的数据规模,无人值守自动采集。
      直到所有任务采集完毕后,自动停止采集。
    • · 自动定时采集/停止

      可以设置每天定时启动采集任务,定时停止。
    • · 自动间隔采集/停止

      可以设置每次间隔固定时间,自动启动/停止采集任务。
  • 自动过滤各种网页和数据
    • · 自动过滤大文件

      过滤质量大于某个阈值的文件,防止下载大文件。
      自定义过滤某些格式的文件。
    • · 自动过滤某些特征的网页

      自定义过滤标题中带有某些特征的网页。
      自定义过滤网页内容中含有某些特征的网页。
      自定义过滤发布于某个时间节点间的网页。
PC机

速度:500万条数据/天

能力:4000-8000万条/单次任务

速度最快的可视化通用爬虫

低成本的超大规模数据采集
服务器

速度:4000-8000万条/天

能力:8-16亿条/单次任务

并行

支持万亿以上数据量

集群采集速度堪比搜索引擎

  • C++开发:决定了软件的性能基因

    Java需要运行于虚拟机
    C#需要运行于.NET Framework
    Python、JavaScript是脚本语言

  • 自主研发JS引擎:高性能的JS引擎

    国内第一家公开声称拥有JS引擎的公司
    提升软件内置浏览器的能力
    保证了可以采集几乎100%的公开信息

  • 笔记本秒杀云采集:极速采集,数据独有

    云采集是为了给用户提升采集效率吗?
    NO!是服务商为了获取用户采集的数据
    前嗅用户数据独有不上传,速度秒杀云采集

集成数据采集-挖掘-分析-存储-应用

标准化的大数据开发型平台
  • 强大的数据挖掘功能

    一个模板挖掘全网特征信息

    集成数据挖掘功能,采集的同时挖掘特征数据。
    通过搜索引擎,一个模板可以挖掘全网的特征信息。
    挖掘关键词后,同步完成词频统计、自动分类等。
  • 集成数据分析引擎

    数据采集的同时完成挖掘和分析,存入数据库

    集成前嗅自主研发的ForeAna数据分析引擎。
    同步完成数据的采集挖掘和深度大数据分析,
    各产品智能集成,大数据能力一步到位。
  • 开放或定制API接口

    接入前嗅的采集、挖掘、分析功能

    可以开放数据接口,接入到用户的系统中。
    直接支持的接口包括:http协议和数据库的接口。
    C++系统可以开发脚本模块。Java的系统需要定制jar包。
  • 大数据全生态的标准化/定制化服务

    标准化的软件+开发者环境+定制开发服务

    获取数据:可以购买软件自己配置,或前嗅提供配置服务。
    实现复杂功能:无需二次开发,内置脚本语言实现复杂功能。
    大规模数据系统:支撑百亿以上数据规模,支持大规模集群环境。

我们接受复杂的需求定制,以及采集+挖掘+分析的复合定制需求。

>>联系我们

常见问题:关于采集特点

采集范围
采集策略
采集速度
采集配置
数据挖掘
数据质量
数据存储
  • 采集几乎100%的互联网公开数据

    独创的可视化采集技术,内置自主研发的爬虫脚本语言,可以采集100%的互联网公开数据。

  • 采集+数据挖掘关键信息

    独创通用的数据挖掘词典,根据需求配置相关的关键词信息。可以在采集的同时,精准挖掘全网的关键信息。

  • 支持各种形式的网站

    支持关键词搜索、验证码、登录、Cookie、POST请求、JS动态页面、Ajax异步加载页面。

  • 支持多种协议

    支持http、https、OAuth认证、各种APP。可以定制开发各类协议。

  • 动态调整采集策略

    完善的日志和多种采集策略,保证数据不重采漏采。包括不重采页面、不重采数据页面、全部重采等。

  • 智能采集突破封锁限制

    智能模拟浏览器和用户行为,突破反爬虫限制。智能过滤无效IP代理,提升代理的利用效率和采集质量。

  • 自动定时/间隔采集

    可以设置自动定时采集、自动间隔某时间采集,以及采集任务条数,到达条数自动停止采集。

  • 自动过滤各种形式数据

    设置文件大小阈值,自动过滤超大文件、flash等无关内容。根据字符串特征自动定位取值区域。

  • 独立知识产权JS引擎

    软件是前嗅自主知识产权的C++软件,底层语言保证了强大的性能。内置国内首家公开宣称的自有JS引擎。

  • PC版采集能力

    台式机的单次任务采集能力可达4000-8000万,采集速度达到500万/天。

  • 服务器版采集能力

    服务器单机的采集能力达8亿-16亿,采集速度4000万/天。并行支撑百亿以上数据链接,堪与搜索引擎媲美。

  • PC机秒杀云采集

    普通笔记本即可轻松完成百万级的数据采集,本地采集保证数据独有。“云采集”得到的已是二手数据了。

  • 采集-挖掘-分析-清洗-排重-入库一步到位

    集成自主研发的数据挖掘工具、数据分析引擎、数据库,实现数据从采集、挖掘、分析到入库一步到位。

  • 浏览器智能定位+独创爬虫脚本语言

    可视化的内置浏览器,一键定位采集文字、图片、资源文件。独创的爬虫脚本语言可以采集任何公开数据。

  • 采集前数据可预览采集

    正式采集之前可以预览采集结果,随时修正配置。预览正确后再采集,降低成本。

  • 自动抓取网页的各类参数

    自动抓取网页和下载过程的各类参数,如url地址、采集时间、网页主键。图片地址等。

  • 独创数据挖掘字典

    独创通用的数据挖掘词典,根据需求配置相关的关键词信息。可以在采集的同时,精准挖掘全网的关键信息。

  • 一个模板挖掘全网特征信息

    在搜索引擎上,通过关键词检索和数据挖掘,采集全网与关键词相关的信息,自动根据权重得出精确结果。

  • 采集-挖掘-分析一步到位

    采集的同时进行数据的挖掘和分析,数据入库时直接得到挖掘和分析结果。

  • 自动完成大数据分析和趋势预测

    软件与前嗅的ForeAna数据分析系统对接,可以在采集的同时实现数据的分类、统计、舆情、聚类、预测等。

  • 完整采集网页数据

    通过抽取网页的链接和数据,可以完整获取整个网站的各层级页面,保证不漏采任何一个页面。

  • 自动过滤无关数据

    通过软件自带的过滤方式、正则表达式和脚本,可以智能过滤不需要的链接和数据,精确获得数据。

  • 自动排重和数据清洗

    数据入库前经过两次自动排重,可以通过灵活的配置,进行数据的进一步处理和清洗。

  • 多种数据处理方式

    通过软件自带的方式、正则表达式或脚本,可以在采集的同时精准处理数据。数据入库时已经处理完毕。

  • 自带自主研发的免费数据库

    软件自带前嗅自主研发的ForeLib数据库,千万级别的NewSQL型数据库,免安装免配置。

  • 支持ForeLib、MySQL、ODBC数据库

    支持ForeLib、MySQL、ODBC数据库,接受定制开发其他数据库接口。

  • 软件内建表浏览数据

    可在软件内直接建表,或关联数据库中已经存在的数据表。数据可在软件中浏览。

  • 数据智能导出

    数据表可根据字段名称、文件后缀、数据序号等多种方式,导出多种格式,xls、csv、txt等。

采集案例