前嗅ForeSpider爬虫软件免费下载

数据采集范围
功能分类	功能点	详细介绍
支持的网站结构	支持Ajax技术	可采集Ajax网页的内容
	采集基于js页面的数据	可采集基于js页面的内容
	采集post请求数据	可采集post请求中的内容
	采集get请求数据	可采集get请求中的内容
	采集需要cookie的网站	可采集需要cookie的网站
	自动解析JS	启用JavaScrIPt功能即可自动解析页面JS
	网页源码智能解码	设置网页编码，即可自动解码
	OAuth认证	采集OAuth认证的网站
	采集境外网站	可采集境外网站
	采集本地文件	可采集本地文件内容
	采集内网网站	可采集内网网站
	采集APP软件数据	可采集各类APP软件的数据
	登录采集	可采集需要登录的网站
	关键词采集	可采集关键词搜索出来的内容
	瀑布流翻页采集	可采集瀑布流翻页的网站
	浏览器采集	可模拟浏览器点击采集
	采集批量数据源网站	可配置一个模板采集成千上万个网站
支持的数据格式	采集外部数据源	采集时可调用本数据库中的其他数据表，或其他数据库/服务器中的数据，作为采集关键词、数据源地址等
	采集视频	可采集网页中的视频
	采集直播	可采集网页中正在直播的视频
	采集音频	可采集网页中的音频
	采集图片	可采集网页中的图片
	采集pdf文件	可采集网页中的pdf文件
	采集word文件	可采集网页中的word文件
	采集表格文件	可采集网页中的表格
	采集各种附件	可采集网页中的各类附件

多场景轻松配置
功能分类	功能点	详细介绍
登录配置	登录配置	可自动配置，也可手动配置
	自动生成cookie	可自动生成cookie，获取数据
	手动配置cookie	对于需要cookie的网站，可手动添加cookie，获取数据
关键词配置	关键词配置	可进行关键词配置，可在高级配置中配置各项参数
	批量导入、修改关键词	批量导入删除、修改关键词
	关键词自动排重	批量关键词自动排重
链接抽取过滤	定位过滤链接	根据网页位置，抽取固定位置的链接
	地址过滤链接	根据网址规律，抽取特定规律的链接
	标题过滤链接	根据网址标题规律，抽取符合标题规律的链接
	智能拼接链接	根据网站规律，高级设置链接参数，快速拼接链接
数据抽取过滤	定位取值	抽取特定位置的数据
	节点取值	抽取网页源码中特定节点的数据
	特征定位	根据正文文本特征，自动定位抽取数据
	智能识别正文	可智能识别数据页正文内容
	智能识别标题	可智能识别数据页标题
	自动获取网页title	可自动获取数据页title
	自动获取网页时间	可自动获取网页更新时间
	自动获取采集时间	可自动获取采集时间
	自动获取页面源码	自动获取页面源码
	自动识别列表数据	自动识别网页中列表链接的内容并抽取数据。
	智能获取节点属性值	可智能获取页面源码中某一节点属性值，如href中的链接地址
	智能提取其他页面数据	可智能提取其他页面的数据，将其他页数据存储到本页的数据表中
	支持UTF-8与GBK相互转码	可以将页面源码中的UTF-8与GBK相互转码
挖掘清洗分类	支持数据分析功能	可对采集到的数据进行分析
	挖掘特征数据	根据某类特征挖掘数据
	智能清洗数据	根据数据规律，智能清洗不需要的文本内容
	自定义主题识别	按照需求自动识别文本主题，并分类采集存储
条件筛选	自定义采集视频大小及时长	设置采集视频的大小及时长，采集符合要求的视频数据
	自定义采集文件大小	设置采集文件的大小，采集符合要求的文件数据
	过滤采集文件类型	设置采集文件的类型，采集该类型的文件数据
	采集特定时间段数据	采集网站中指定时间段内的数据
采集预览	模板预览	在配置过程中预览某层模板的采集效果，及时调整提高配置效率
	检测链接抽取	在配置中可随时查看链接抽取准确性，调整过滤规则
	检测数据抽取	在配置中可随时查看数据抽取准确性
批量智能配置	配置继承共享	子模板共享父模板内容
	配置映射共享	不同模板之间通过映射灵活共享共同配置部分
	关联外部数据源	关键词、采集源，数据匹配入库等均能关联外部数据源进行数据匹配
	AI配置批量网站	智能配置成千上万的结构类似的网站
	模板复制粘贴	将已配置好的模板层级，复制并粘贴到需要的新模板中，提高配置效率
	表结构可复用	不同网站可重复使用同一表结构，无需重建表结构

普适化运行设置
模板导入/出	导出采集模板	可将配置好的采集模板导出
模板导入/出	导入采集模板/出	可将配置好的采集模板导入
灵活调速	自定义设置采集速度	自定义采集速度，采集速度最高可达8000万条/天
	自定义调整采集线程	自定义调整线程
	动态调整采集速度	可直接在采集过程中调整采集速度，无需终止任务
	动态调整采集线程	可直接在采集过程中调整采集线程，无需终止任务
	浏览器加速	加载时自动过滤页面中的非html文件，加速加载和运行
定时采集	间隔定时采集	设定间隔时间，实现固定间隔时间的采集开启/关闭
定时采集	定点定时采集	设定爬虫自动开始/关闭的时间
自定义采集策略	增量采集	增量采集网页更新数据，不重复采集/天
	查漏采集	运行中网络错误、入库错误的请求，查漏再次采集，更新补充保证采集数据的完整性
	继续采集	继续运行上次未完成的采集任务
	全部重采	重新运行全部采集任务
	自定义请求上限	设置请求上限，达到上限后停止采集
	加载日志宏	设置日志加载命令，使日志按照命令执行
运行排重	运行列表排重	运行时对请求进行排重处理，防止重复采集数据
加载超时设置	自定义超时时间	设置发送超时和请求超时最大时长，有效防止因网络等原因导致的，超时请求发送或接收数据失败的情况
加载超时设置	超时重试次数设置	设置超时重试次数，可在超过设置的时间后多次重试
模拟浏览器	模拟浏览器版本	自定义设置运行时使用的浏览器版本
模拟浏览器	自定义User-Agent	自定义User-Agent,模仿蜘蛛采集
异常错误处理	网络异常预警	运行时遇到因网络异常而导致的请求失败，系统会自动预警
异常错误处理	错误处理模板	运行中错误的请求返回指指定模板中再次运行，大大提高采集效率
运行进度监控	采集日志记录	记录运行过程中所有请求日志
	日志导入/导出	导出、导入日志
	日志统计	统计日志数据
	自动保存任务进度	出现异常情况时，自动保存任务进度，重新开启后可继续采集
采集顺序	多网站采集	同时采集多个网站/模板
	多网站同步采集	将所有任务的所有日志都装载完再开始采集。可以保证顺序和排重。
	多网站异步采集	边加载边采集，优点是开始采集会比较快，等待时间短，缺点是无法保证顺序和排重。
智能自检	系统配置检测	采集前运行自检，可清楚查看配置设置是否达到最佳状态

多策略反爬设置
反爬预警	网络异常识别	自定义网络异常识别次数，当达到次数时，会自动提醒
	反爬识别	自定义反爬识别次数，当达到次数时，会自动提醒
	自定义预警操作	可自行选择预警操作，包括：暂停、自动休眠、自动更换代理IP等
	反爬提醒	可自行选择提醒方式，包括：图标闪烁、弹窗等待等
代理IP设置	接入动静态代理IP	可接入第三方代理IP，动态和静态均可
	代理IP测试	接入第三方代理IP后，可测试其有效性
	反爬自动更换代理IP	运行时，自动识别反爬并自动更换代理IP
	代理IP优化	优化无效代理，优化响应过慢代理
	多通道采集	多线程采集时，真实模拟多个通道进行采集的过程
	动态IP锁定	将动态IP与运行时获取一条数据的一组请求锁定，更真实的模拟IP获取数据的过程
	全局代理IP设置	设置全局代理IP
登录反爬	模拟多账号登录	模拟多账号登录，用于封号的反爬策略
请求数限制	自定义请求上限	设置请求上限，达到上限后停止采集
验证码反爬	支持批量识别验证码	可接入第三方打码平台，批量识别验证码，解决网页验证码问题

数据存储与导出
导出格式多样化	导出为csv	将数据导出为csv格式
	导出为txt	将数据导出为txt格式
	导出为xls	将数据导出为xls格式
	导出图片	将采集到的图片自定义命名字段，导出到指定文档中
	导出视频	将采集到的视频自定义命名字段，导出到指定文档中
	导出附件	将采集到的附件（pdf、word、xls等）自定义命名字段，导出到指定文档中
局部导出	导出指定范围数据	导出指定范围的数据
	导出指定字段	导出指定字段的数据
	自定义文件命名字段	自定义文件命名字段
分组导出	自定义文件夹分组导出	将指定范围的数据，分组导出到自命名的不同文件夹中
筛选检索	按字段检索	关键词检索某一字段
	全文检索	关键词检索全部数据
	按字段检索并导出	关键词检索某一字段，并导出符合的数据
	全文检索并导出	关键词检索全部数据，并导出符合的数据
	按字段检索并删除数据	关键词检索某一字段，并删除检索出的数据
	全文检索并删除数据	关键词检索全部数据，并删除检索出的数据
存储功能	自定义新增数据存储规则	可设置不同的数据存储形式：仅更新新增数据、实时采集最新数据并覆盖旧数据、实时采集所有采集数据等。
	数据自动排重	自定义排重字段，根据字段内容进行排重存储
	多个网站数据统一存储	多网站数据同时采集并存储到同一个数据表中
	多网站数据独立存储	多网站同时采集单独存储到不同数据表中
	自带数据库	系统默认数据库为ForeLib数据库
	支持Mysql数据库	可关联Mysql数据库，将数据实时采集到Mysql数据库中
	支持Access数据库	可关联Access数据库，将数据实时采集到Access数据库中
	支持SQL Server数据库	可关联SQL Server数据库，将数据实时采集到SQL Server数据库中
	连接外部服务器存储	连接外部服务器，将数据直接存储到外部服务器中

数据推送发布
挖掘清洗	推送时挖掘数据	在推送的同时，对文本进行特征挖掘提取
挖掘清洗	推送时清洗数据	在推送的同时，对数据按照规律进行清洗
推送时间设置	推送时间设置	将采集到的数据定时推送
推送时间设置	实时推送	实时推送采集到的数据
推送方式设置	邮件推送	通过邮件推送数据
	http/https推送	通过http/https推送数据
	定制接口推送	通过定制接口推送数据
	数据库推送	将数据推送到指定数据库

极速采集
并行采集流数据	并行采集视频文件	并行下载多个视频文件，加快下载速度
并行采集流数据	并行下载附件	并行下载多个附件文件，加快下载速度
多进程采集	多进程多线程运行	可同时运行多进程和多个线程，加快采集速度
多网站智能管理	多网站采集独立管理	同时运行多个网站时，可独立方便管理
	多网站定时采集独立管理	同时运行多个网站时，独立对各网站进行定时管理
	多网站日志独立管理	同时运行多个网站时，日志独立管理
	采集批量网站无上限	可同时采集成千上万个网站，没有上限
自研内核引擎	JS引擎内核	采集引擎完全由C++编写，不同于浏览器采集，单机采集速度最高可达400万条/天
	CSS引擎	拥有CSS引擎，可对快速解析网页中CSS数据，高效采集
	DOM树解析引擎	拥有DOM树解析引擎，对网页中DOM树结构快速解析
	分布式引擎	分布式引擎，可实现多机集群采集

咨询电话(周一至周五9：00-18：00)

ForeSpider数据采集引擎功能列表