1、16年老品牌,上市 IT培训机构 官方网站: http:/H IT培训机构 官方网站: http:/H 技术技术2Spark架构架构3BDAS简介简介4函数函数 式编程简介式编程简介 7Spark应用实例应用实例6Spark安装部署安装部署516年老品牌,上市 IT培训机构 官方网站: http:/H Spark综述Spark是什么是什么 1Spark是基于内存计算的大数据并行计算框架。 Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将 Spark部署在大量廉价硬件之上,形成集群。Spark于 2009年诞生于加州大学伯克利分校 AMPL
2、ab。并且于 2010年开源。 2013年 6月 Spark进入Apache孵化器。目前,已经成为Apache软件基金会旗下的顶级开源项目。http:/people.csail.mit.edu/matei/Matai zaharia16年老品牌,上市 IT培训机构 官方网站: http:/H Spark综述Spark与与 Hadoop2Spark相比 HadoopMapRedue的优势如下:1、 中间结果输出基于 MapReduce的计算模型会将中间结果序列化到磁盘上 。而 Spark将执行模型抽象为通用的有向无环图执行 计划。 且可以将中间结果缓存内存中 。2、 数据格式和内存布局Spark
3、抽象出分布式内存存储结构 RDD,进行数据存储。 Spark能够控制数据在不同节点上的分区,用户可以自定义分区策略。16年老品牌,上市 IT培训机构 官方网站: http:/H Spark综述Spark与与 Hadoop33、执行策略MapReduce在数据 shuffle之前总是花费大量时间来排序。 Spark支持基于 Hash的分布式聚合,在需要的时候再进行实际排序 。4、任务调度的开销MapReduce上的不同作业在同一个节点运行时,会各自启动一个 JVM。而 Spark同一节点的所有任务都可以在一个 JVM上 运行。16年老品牌,上市 IT培训机构 官方网站: http:/H Spar
4、k综述Spark发展现状发展现状3Spark生态随着 BDAS的完善,已经成型。Spark全面兼容 Hadoop的 数据持久层 。从而 让把计算任务从原来的 MapReduce计算 任务 迁移 到 Spark中更加简单 。目前 Spark的工业应用在国内已经大范围落地。包括 BAT在内的一众互联网公司都建立了自己的 Spark集群16年老品牌,上市 IT培训机构 官方网站: http:/H 技术技术2Spark架构架构3BDAS简介简介4函数函数 式编程简介式编程简介 7Spark应用实例应用实例6Spark安装部署安装部署516年老品牌,上市 IT培训机构 官方网站: http:/H Spa
5、rk关键技术关键技术 RDD的全称是弹性分布式数据集( resilient distributed dataset)是 Spark的核心数据模型, RDD是 Spark中待处理的数据的抽象,它是逻辑中的实体 。对于 使用者来说,你得到的数据操作接口就是 RDD,在对RDD进行处理的时候不需要考虑底层的分布式集群,就像在单机上一样即可,这也正是 Spark的优势之一。什么什么 是是 RDD116年老品牌,上市 IT培训机构 官方网站: http:/H Spark关键技术关键技术 从 Hadoop文件系统输入(比如 HDFS)创建。 从父 RDD转换得到新的 RDD。 将数组或者集合这样的数据结构并行化,转化成 RDD。 通过 cache()函数将计算后的 RDD缓存到内存中。RDD创建方式创建方式216年老品牌,上市 IT培训机构 官方网站: http:/H Spark关键技术关键技术 从逻辑上来看, RDD就是数据。而实际上,从物理上来看, RDD是一种分布式内存的抽象。 Spark中的数据实际上是像 HDFS那样分块存储RDD存储结构存储结构3