spark入门及实践—光环大数据培训.ppt

上传人:99****p 文档编号:1452790 上传时间:2019-02-28 格式:PPT 页数:72 大小:2.57MB
下载 相关 举报
spark入门及实践—光环大数据培训.ppt_第1页
第1页 / 共72页
spark入门及实践—光环大数据培训.ppt_第2页
第2页 / 共72页
spark入门及实践—光环大数据培训.ppt_第3页
第3页 / 共72页
spark入门及实践—光环大数据培训.ppt_第4页
第4页 / 共72页
spark入门及实践—光环大数据培训.ppt_第5页
第5页 / 共72页
点击查看更多>>
资源描述

1、16年老品牌,上市 IT培训机构 官方网站: http:/H IT培训机构 官方网站: http:/H 技术技术2Spark架构架构3BDAS简介简介4函数函数 式编程简介式编程简介 7Spark应用实例应用实例6Spark安装部署安装部署516年老品牌,上市 IT培训机构 官方网站: http:/H Spark综述Spark是什么是什么 1Spark是基于内存计算的大数据并行计算框架。 Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将 Spark部署在大量廉价硬件之上,形成集群。Spark于 2009年诞生于加州大学伯克利分校 AMPL

2、ab。并且于 2010年开源。 2013年 6月 Spark进入Apache孵化器。目前,已经成为Apache软件基金会旗下的顶级开源项目。http:/people.csail.mit.edu/matei/Matai zaharia16年老品牌,上市 IT培训机构 官方网站: http:/H Spark综述Spark与与 Hadoop2Spark相比 HadoopMapRedue的优势如下:1、 中间结果输出基于 MapReduce的计算模型会将中间结果序列化到磁盘上 。而 Spark将执行模型抽象为通用的有向无环图执行 计划。 且可以将中间结果缓存内存中 。2、 数据格式和内存布局Spark

3、抽象出分布式内存存储结构 RDD,进行数据存储。 Spark能够控制数据在不同节点上的分区,用户可以自定义分区策略。16年老品牌,上市 IT培训机构 官方网站: http:/H Spark综述Spark与与 Hadoop33、执行策略MapReduce在数据 shuffle之前总是花费大量时间来排序。 Spark支持基于 Hash的分布式聚合,在需要的时候再进行实际排序 。4、任务调度的开销MapReduce上的不同作业在同一个节点运行时,会各自启动一个 JVM。而 Spark同一节点的所有任务都可以在一个 JVM上 运行。16年老品牌,上市 IT培训机构 官方网站: http:/H Spar

4、k综述Spark发展现状发展现状3Spark生态随着 BDAS的完善,已经成型。Spark全面兼容 Hadoop的 数据持久层 。从而 让把计算任务从原来的 MapReduce计算 任务 迁移 到 Spark中更加简单 。目前 Spark的工业应用在国内已经大范围落地。包括 BAT在内的一众互联网公司都建立了自己的 Spark集群16年老品牌,上市 IT培训机构 官方网站: http:/H 技术技术2Spark架构架构3BDAS简介简介4函数函数 式编程简介式编程简介 7Spark应用实例应用实例6Spark安装部署安装部署516年老品牌,上市 IT培训机构 官方网站: http:/H Spa

5、rk关键技术关键技术 RDD的全称是弹性分布式数据集( resilient distributed dataset)是 Spark的核心数据模型, RDD是 Spark中待处理的数据的抽象,它是逻辑中的实体 。对于 使用者来说,你得到的数据操作接口就是 RDD,在对RDD进行处理的时候不需要考虑底层的分布式集群,就像在单机上一样即可,这也正是 Spark的优势之一。什么什么 是是 RDD116年老品牌,上市 IT培训机构 官方网站: http:/H Spark关键技术关键技术 从 Hadoop文件系统输入(比如 HDFS)创建。 从父 RDD转换得到新的 RDD。 将数组或者集合这样的数据结构并行化,转化成 RDD。 通过 cache()函数将计算后的 RDD缓存到内存中。RDD创建方式创建方式216年老品牌,上市 IT培训机构 官方网站: http:/H Spark关键技术关键技术 从逻辑上来看, RDD就是数据。而实际上,从物理上来看, RDD是一种分布式内存的抽象。 Spark中的数据实际上是像 HDFS那样分块存储RDD存储结构存储结构3

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。