< 返回ForeSpider介绍页
ForeSpider数据采集引擎功能列表
数据采集范围
功能分类功能点详细介绍
支持的网站结构支持Ajax技术可采集Ajax网页的内容
采集基于js页面的数据可采集基于js页面的内容
采集post请求数据可采集post请求中的内容
采集get请求数据可采集get请求中的内容
采集需要cookie的网站可采集需要cookie的网站
自动解析JS启用JavaScrIPt功能即可自动解析页面JS
网页源码智能解码设置网页编码,即可自动解码
OAuth认证采集OAuth认证的网站
采集境外网站可采集境外网站
采集本地文件可采集本地文件内容
采集内网网站可采集内网网站
采集APP软件数据可采集各类APP软件的数据
登录采集可采集需要登录的网站
关键词采集可采集关键词搜索出来的内容
瀑布流翻页采集可采集瀑布流翻页的网站
浏览器采集可模拟浏览器点击采集
采集批量数据源网站可配置一个模板采集成千上万个网站
支持的数据格式采集外部数据源采集时可调用本数据库中的其他数据表,或其他数据库/服务器中的数据,作为采集关键词、数据源地址等
采集视频可采集网页中的视频
采集直播可采集网页中正在直播的视频
采集音频可采集网页中的音频
采集图片可采集网页中的图片
采集pdf文件可采集网页中的pdf文件
采集word文件可采集网页中的word文件
采集表格文件可采集网页中的表格
采集各种附件可采集网页中的各类附件
多场景轻松配置
功能分类功能点详细介绍
登录配置登录配置可自动配置,也可手动配置
自动生成cookie可自动生成cookie,获取数据
手动配置cookie对于需要cookie的网站,可手动添加cookie,获取数据
关键词配置关键词配置可进行关键词配置,可在高级配置中配置各项参数
批量导入、修改关键词批量导入删除、修改关键词
关键词自动排重批量关键词自动排重
链接抽取过滤定位过滤链接根据网页位置,抽取固定位置的链接
地址过滤链接根据网址规律,抽取特定规律的链接
标题过滤链接根据网址标题规律,抽取符合标题规律的链接
智能拼接链接根据网站规律,高级设置链接参数,快速拼接链接
数据抽取过滤定位取值抽取特定位置的数据
节点取值抽取网页源码中特定节点的数据
特征定位根据正文文本特征,自动定位抽取数据
智能识别正文可智能识别数据页正文内容
智能识别标题可智能识别数据页标题
自动获取网页title可自动获取数据页title
自动获取网页时间可自动获取网页更新时间
自动获取采集时间可自动获取采集时间
自动获取页面源码自动获取页面源码
自动识别列表数据自动识别网页中列表链接的内容并抽取数据。
智能获取节点属性值可智能获取页面源码中某一节点属性值,如href中的链接地址
智能提取其他页面数据可智能提取其他页面的数据,将其他页数据存储到本页的数据表中
支持UTF-8与GBK相互转码可以将页面源码中的UTF-8与GBK相互转码
挖掘清洗分类支持数据分析功能可对采集到的数据进行分析
挖掘特征数据根据某类特征挖掘数据
智能清洗数据根据数据规律,智能清洗不需要的文本内容
自定义主题识别按照需求自动识别文本主题,并分类采集存储
条件筛选自定义采集视频大小及时长设置采集视频的大小及时长,采集符合要求的视频数据
自定义采集文件大小设置采集文件的大小,采集符合要求的文件数据
过滤采集文件类型设置采集文件的类型,采集该类型的文件数据
采集特定时间段数据采集网站中指定时间段内的数据
采集预览模板预览在配置过程中预览某层模板的采集效果,及时调整提高配置效率
检测链接抽取在配置中可随时查看链接抽取准确性,调整过滤规则
检测数据抽取在配置中可随时查看数据抽取准确性
批量智能配置配置继承共享子模板共享父模板内容
配置映射共享不同模板之间通过映射灵活共享共同配置部分
关联外部数据源关键词、采集源,数据匹配入库等均能关联外部数据源进行数据匹配
AI配置批量网站智能配置成千上万的结构类似的网站
模板复制粘贴将已配置好的模板层级,复制并粘贴到需要的新模板中,提高配置效率
表结构可复用不同网站可重复使用同一表结构,无需重建表结构
普适化运行设置
模板导入/出导出采集模板可将配置好的采集模板导出
导入采集模板/出可将配置好的采集模板导入
灵活调速自定义设置采集速度自定义采集速度,采集速度最高可达8000万条/天
自定义调整采集线程自定义调整线程
动态调整采集速度可直接在采集过程中调整采集速度,无需终止任务
动态调整采集线程可直接在采集过程中调整采集线程,无需终止任务
浏览器加速加载时自动过滤页面中的非html文件,加速加载和运行
定时采集间隔定时采集设定间隔时间,实现固定间隔时间的采集开启/关闭
定点定时采集设定爬虫自动开始/关闭的时间
自定义采集策略增量采集增量采集网页更新数据,不重复采集/天
查漏采集运行中网络错误、入库错误的请求,查漏再次采集,更新补充保证采集数据的完整性
继续采集继续运行上次未完成的采集任务
全部重采重新运行全部采集任务
自定义请求上限设置请求上限,达到上限后停止采集
加载日志宏设置日志加载命令,使日志按照命令执行
运行排重运行列表排重运行时对请求进行排重处理,防止重复采集数据
加载超时设置自定义超时时间设置发送超时和请求超时最大时长,有效防止因网络等原因导致的,超时请求发送或接收数据失败的情况
超时重试次数设置设置超时重试次数,可在超过设置的时间后多次重试
模拟浏览器模拟浏览器版本自定义设置运行时使用的浏览器版本
自定义User-Agent自定义User-Agent,模仿蜘蛛采集
异常错误处理网络异常预警运行时遇到因网络异常而导致的请求失败,系统会自动预警
错误处理模板运行中错误的请求返回指指定模板中再次运行,大大提高采集效率
运行进度监控采集日志记录记录运行过程中所有请求日志
日志导入/导出导出、导入日志
日志统计统计日志数据
自动保存任务进度出现异常情况时,自动保存任务进度,重新开启后可继续采集
采集顺序多网站采集同时采集多个网站/模板
多网站同步采集将所有任务的所有日志都装载完再开始采集。可以保证顺序和排重。
多网站异步采集边加载边采集,优点是开始采集会比较快,等待时间短,缺点是无法保证顺序和排重。
智能自检系统配置检测采集前运行自检,可清楚查看配置设置是否达到最佳状态
多策略反爬设置
反爬预警网络异常识别自定义网络异常识别次数,当达到次数时,会自动提醒
反爬识别自定义反爬识别次数,当达到次数时,会自动提醒
自定义预警操作可自行选择预警操作,包括:暂停、自动休眠、自动更换代理IP等
反爬提醒可自行选择提醒方式,包括:图标闪烁、弹窗等待等
代理IP设置接入动静态代理IP可接入第三方代理IP,动态和静态均可
代理IP测试接入第三方代理IP后,可测试其有效性
反爬自动更换代理IP运行时,自动识别反爬并自动更换代理IP
代理IP优化优化无效代理,优化响应过慢代理
多通道采集多线程采集时,真实模拟多个通道进行采集的过程
动态IP锁定将动态IP与运行时获取一条数据的一组请求锁定,更真实的模拟IP获取数据的过程
全局代理IP设置设置全局代理IP
登录反爬模拟多账号登录模拟多账号登录,用于封号的反爬策略
请求数限制自定义请求上限设置请求上限,达到上限后停止采集
验证码反爬支持批量识别验证码可接入第三方打码平台,批量识别验证码,解决网页验证码问题
数据存储与导出
导出格式多样化导出为csv将数据导出为csv格式
导出为txt将数据导出为txt格式
导出为xls将数据导出为xls格式
导出图片将采集到的图片自定义命名字段,导出到指定文档中
导出视频将采集到的视频自定义命名字段,导出到指定文档中
导出附件将采集到的附件(pdf、word、xls等)自定义命名字段,导出到指定文档中
局部导出导出指定范围数据导出指定范围的数据
导出指定字段导出指定字段的数据
自定义文件命名字段自定义文件命名字段
分组导出自定义文件夹分组导出将指定范围的数据,分组导出到自命名的不同文件夹中
筛选检索按字段检索关键词检索某一字段
全文检索关键词检索全部数据
按字段检索并导出关键词检索某一字段,并导出符合的数据
全文检索并导出关键词检索全部数据,并导出符合的数据
按字段检索并删除数据关键词检索某一字段,并删除检索出的数据
全文检索并删除数据关键词检索全部数据,并删除检索出的数据
存储功能自定义新增数据存储规则可设置不同的数据存储形式:仅更新新增数据、实时采集最新数据并覆盖旧数据、实时采集所有采集数据等。
数据自动排重自定义排重字段,根据字段内容进行排重存储
多个网站数据统一存储多网站数据同时采集并存储到同一个数据表中
多网站数据独立存储多网站同时采集单独存储到不同数据表中
自带数据库系统默认数据库为ForeLib数据库
支持Mysql数据库可关联Mysql数据库,将数据实时采集到Mysql数据库中
支持Access数据库可关联Access数据库,将数据实时采集到Access数据库中
支持SQL Server数据库可关联SQL Server数据库,将数据实时采集到SQL Server数据库中
连接外部服务器存储连接外部服务器,将数据直接存储到外部服务器中
数据推送发布
挖掘清洗推送时挖掘数据在推送的同时,对文本进行特征挖掘提取
推送时清洗数据在推送的同时,对数据按照规律进行清洗
推送时间设置推送时间设置将采集到的数据定时推送
实时推送实时推送采集到的数据
推送方式设置邮件推送通过邮件推送数据
http/https推送通过http/https推送数据
定制接口推送通过定制接口推送数据
数据库推送将数据推送到指定数据库
极速采集
并行采集流数据并行采集视频文件并行下载多个视频文件,加快下载速度
并行下载附件并行下载多个附件文件,加快下载速度
多进程采集多进程多线程运行可同时运行多进程和多个线程,加快采集速度
多网站智能管理多网站采集独立管理同时运行多个网站时,可独立方便管理
多网站定时采集独立管理同时运行多个网站时,独立对各网站进行定时管理
多网站日志独立管理同时运行多个网站时,日志独立管理
采集批量网站无上限可同时采集成千上万个网站,没有上限
自研内核引擎JS引擎内核采集引擎完全由C++编写,不同于浏览器采集,单机采集速度最高可达400万条/天
CSS引擎拥有CSS引擎,可对快速解析网页中CSS数据,高效采集
DOM树解析引擎拥有DOM树解析引擎,对网页中DOM树结构快速解析
分布式引擎分布式引擎,可实现多机集群采集