1、Hadoop应用高级篇之用户行为实时获取与分析,李锋,从事软件开始12年,主要的业务领域在航空业与金融业,近几年主要从事大数据领域应用开发与运维,我们的网站受到攻击业务目标网站总体情况网站的部署结构抓住恶意用户思考如何完成上级交给的任务如何解决数据量的问题?如何解决数据的实时性?如何解决系统的扩展性?开始应用程序部署架构图部署前端监控脚本部署实时数据流处理中枢部署hadoop集群部署hive应用部署业务处理,我们的网站受到攻击,业务目标网站整体情况网站总体架构,业务目标,现在公司的销售网站被恶意用户攻击,需要作为架构师的你提供一个解决方案,需要能够对简单的恶意行为在10s内做出反应,对复杂的恶
2、意行为10分钟内做出反应。需要网站能够7X24小时不间断运行,减少公司的损失,提高网站销售量,网站总体情况,关键特性,网站群总的访问量:每日1500千万PV网站群独立访问数量:每日10万独立IP网站群每日的访问日志:每日30Gb网站群高峰的访问量:4000pv/mins,网站的部署结构,抓住恶意用户,思考如何完成上级交给的目标?,思考如何完成上级交给的目标?,重点考虑的几个方面:1) 面临的数据量大小2) 实时性的要求有多高3) 系统的扩展性如何4) 实施成本有多少,如何解决数据量的问题?,当前情况,每天1500万的访问量,未来要是,每天15亿次的访问量?该如何做?,如何解决数据的实时性?,每
3、分钟峰值时候需要处理40000条用户行为数据,未来要是,每分钟峰值需要处理50万次?该如何做?,Apache Kafka,网站监控脚本,如何解决系统的扩展性?,系统的中枢神经在哪里?,Apache Kafka,Kafka分布式消息系统,具有非常好的扩展性能。通过,zookeeper的支持下分布式的部署,可以动态进行计算能力升级以及异常节点的下线处理,具有很好的扩展性以及高吞吐量。在3台普通PC服务器(双路16核,16G内存)的集群架构下,可以支持每秒钟50万的吞吐量。,实时数据监控部署结构,用户行为监控双管齐下1)互联网用户访问信息(浏览器指纹技术)2)网站请求信息,开始部署应用程序,部署前端监控脚本与采集服务,