分布式数据采集平台(网络爬虫)设计框架作者:数荟集CTO时间:2016-6-8产品特色1、高性能2、分布式部署,规模无限扩展3、配置灵活,可以任意配置规则4、支持对爬虫单独设置:执行周期、执行开始时间、执行间隔等参数5、支持http、https等协议6、支持get方式和post方式7、支持文件下载8、支持翻页采集9、支持二次js请求采集10、支持html标签、json等任意报文11、支持登录采集12、支持代理采集,具有代理池功能,定时自动探测代理有效性13、独创的规则配置体系,具有处理复杂报文的能力14、具有采集结果加工处理能力,比如:替换、截取、清除垃圾标签清除空格等操作15、支持多数据库,多表数据结果16、支持数据库插入、删除、修改等操作的功能17、支持保存文件功能18、具有规则失效告警功能功能介绍爬虫服务器管理(1) 新增、修改、查看和删除爬虫服务器(2) 控制分布式爬虫服务器的启动和停止。(3) 配置爬虫执行周期、执行开始时间、执行间隔等参数D5逊袞IT+名环