1、英特尔智慧交通解决方案,-英特尔大数据平台最佳实践,提纲, 大数据带来交通管理上的挑战 Intel企业级 Hadoop平台, 基于Intel Hadoop构建智慧交通应用解决方案,大数据时代-数据爆发性增长,3,统计、分析、预测、实时处理IDC预测全球的数据使用量到2020年会增长44倍,达到35.2ZB (1ZB = 10亿TB)*Source: McKinsey Global Institute AnalysisSG Cross Asset Research, PwC,Value,大数据处理速度要求越来越高, 大数据与海量数据的一,个重要区别,在于不但数据尺寸大,而且对数据处理的响应速度有
2、有着更高的要求 传统的以周,天,小时为单位的运算处理周期,下降到以分钟,秒为,单位, 大数据高价值的重要体现-处理速度,High utility,Diminishing utility,Archival value,Time,High,Low,Negative,数据的多样性, 数据形式的多样: 结构化数据 ,数据间有很强的因果关系 半结构化数据 ,数据间因果关系较弱 非结构化数据, 数据间无因果关系 数据来源的多样性:,不同的应用系统各种设备互联网其它,Flat file,创造显著业务价值(VALUE), Copyright 2011EMCCorporation. All rights res
3、erved.,大数据分析,显著的业务价值,3V特性驱动下创建,挖掘数据资产价值,通过数据驱动业务,变成本中心为利润中心,智慧城市-最典型的大数据应用,7,智能交通系统面临大数据的挑战 海量数据 城市A: 500000个探头, 三个月会产生200PB的视频数据 城市B: 12,000个ITS探头, 每天20亿条记录,三个月产生1PB的数据 实时计算 实时数据的采集、扫描、查询和共享 实时事件监测 准实时的预测分析 大型跨区域分布式计算,数据过于庞大,建设中心机房困难带宽所限无法将海量数据汇总至总中心数据多为分中心本地用户访问数据过于集中,系统风险加大总中心投资过大,无法分摊到位,8,数据处理需求
4、与传统平台扩展能力之间的差距不断增大,数据处理需求与传统平台硬件扩展的差距不断扩大,Industry Progress,大数据处理需要的扩展能力,Big DataBig,云计算技术是有效处理大数据的有效手段,大数据和云是两个不同的概念,但两者之间有很多交集。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,因此实际上大数据和云之间存在很多合力的地方。大数据应用是在云上跑的、非常典型的应用。例如尽管电子邮件也是云上的应用之一,但也可以脱离云架构,但是大数据应用必须架构在云设施上。这就是两者的关系大数据处理离不开云,海量数据分析处理向云系统架构演进, 结构化数据 数据规模
5、一般为TB规模 集中式,为了分析进行大量数据移动,数据向计算靠近 批处理为主,事务,关系型数据库,批处理,数据仓库,集群化,非结构化,流式,多种数据源,分析,(MapReduce),组织,传统BI分析,大数据分析, 结构化/非结构化混合分析的能力 数据规模从数十TB到PB级别 分布式,计算向数据靠近 支持流式分析Examples:,Telco,Govt,Finance,Web,提纲, 大数据带来交通管理上的挑战 Intel企业级 Hadoop平台, 基于Intel Hadoop构建智慧交通应用解决方案,什么是Hadoop? 开源Apache 项目,灵感来源于Google的MapReduce白皮
6、书和Google文件系(GFS),Yahoo完成了绝大部分初始设计和开发 Hadoop 核心组件包括:-分布式文件系统-Map/Reduce 分布式计算 用Java编写, 运行平台:Linux, Mac OS/X, Solaris,普通的X86硬件平台,Shuffle,Map,Reduce,Hadoop 之上的常见应用组件Hadoop.apache.org, MapReduce的过程化语言接口 高可用分布式协调器 Hadoop上的类SQL引擎 用于随机实时读写访问的数据库引擎(NOSQL) 工作流式的作业管理器和协调器 可扩展的机器学习库,PigZookeeperHiveHBaseOozieM
7、ahout,为什么Hadoop很重要?, 非结构化数据暴增:, 估计未来5年,企业的数据将增长650%,其中80%,都是非结构化数据, 比如FACEBOOK每天收集100TB的数据,Twitter会有,每天产生3500亿的tweets, 非结构化的数据同样蕴藏巨大价值, 需要新方法利用不同类型数据进行业务分析, Apache Hadoop作为一个分析存储大量数据的关键,数据平台出现,Hadoop 与“大数据”, Hadoop是致力于“大数据”处理的最重要平,台之一, 能够轻松扩展到PB级别的数据存储,处理规模 带有容错功能的并行处理架构, 基于普通的X86平台硬件架构,硬件成本低廉 用内置格式
8、存储/处理数据, 基于开源项目,拥有当量的代码来源,并且传统,厂商也日益重视对其的支持,它已经成为重要的并行处理架构标准之一,Hadoop数据平台创建革命性的新应用,医疗 电子病历的实时查询、搜索和实时共享 医疗影像数据的存储和检索 疾病的趋势分析,流行病告警 计算机辅助诊断(疾病分类等) 药物效果分析 药物相互作用(副作用)分析金融 非结构化数据(例如签名、影像等)的存储和检索 准实时的交易统计和分析 交易相关性分析 客户风险分析 交易监控、合规分析、法规遵从制造 设备参数采集和监控 感器数据实时采集、分析和实时告警 失效分析和损失预估 预测性分析,电信 详单和账单的采集、存储、实时查询和统
9、计 用户上网记录的采集、查询、统计 用户行为分析,套餐推荐 用户流失性分析 3G网络优化,流量优化,网间优化 基站参数采集和分析政府部门 智能交通系统:交通信息的实时采集、实时统计和实时查询交通信息的实时分析,例如区间测速交通状况的模式分析和优化 智慧城市安保系统:图像视频的存储、检索和比对。 物联网:传感器数据的实时采集、实时分析和实时告警零售 统计和分析: 准实时的售卖点销售统计 决策支持: 从库存管理、价格制定到新店选址 新的商业/服务模式:定向广告、优惠券、日常生活助理等,Intel 提供企业级的Hadoop产品 Intel Hadoop 经过测试和验证的稳定版本,在生产环境成功部署运
10、营 包括了Intel针对现有客户在实际使用中出现问题的解决方法以及改进和优化 基于Intel在云计算研发上的经验积,累,提供专业的咨询服务,帮助构建高可扩展高性能的分布式系统 结合Intel的硬件部门,提供全面的软硬件解决方案 为Intel硬件平台进行优化,提供更高性能。,Complex MPP Systems(24000记录/秒 用户数: 1000, 集群规模及指标 (不考虑应用系统), Intel Hadoop集群共580台服务器 每台服务器, 12块1T SAS硬盘 48GB DDR3内存, 两路共八核 Intel至强服务器, 性能:写入100000条记录/秒,20000主键查询/秒,基于海量数据进行车辆轨迹分析实时路况信息,区域号牌管理,碰撞分析,。,通过交通流量分析优化道路状态,日小时流量分析,周均流量分析,智能卡口-实时告警车辆布控报警,视频调度播放,海量并发查询非现场违法查询,驾驶人违法查询,超速查询,醉驾查询,谢谢,