ImageVerifierCode 换一换
格式:PPT , 页数:72 ,大小:2.57MB ,
资源ID:1452790      下载积分:15 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1452790.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(spark入门及实践—光环大数据培训.ppt)为本站会员(99****p)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

spark入门及实践—光环大数据培训.ppt

1、16年老品牌,上市 IT培训机构 官方网站: http:/H IT培训机构 官方网站: http:/H 技术技术2Spark架构架构3BDAS简介简介4函数函数 式编程简介式编程简介 7Spark应用实例应用实例6Spark安装部署安装部署516年老品牌,上市 IT培训机构 官方网站: http:/H Spark综述Spark是什么是什么 1Spark是基于内存计算的大数据并行计算框架。 Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将 Spark部署在大量廉价硬件之上,形成集群。Spark于 2009年诞生于加州大学伯克利分校 AMPL

2、ab。并且于 2010年开源。 2013年 6月 Spark进入Apache孵化器。目前,已经成为Apache软件基金会旗下的顶级开源项目。http:/people.csail.mit.edu/matei/Matai zaharia16年老品牌,上市 IT培训机构 官方网站: http:/H Spark综述Spark与与 Hadoop2Spark相比 HadoopMapRedue的优势如下:1、 中间结果输出基于 MapReduce的计算模型会将中间结果序列化到磁盘上 。而 Spark将执行模型抽象为通用的有向无环图执行 计划。 且可以将中间结果缓存内存中 。2、 数据格式和内存布局Spark

3、抽象出分布式内存存储结构 RDD,进行数据存储。 Spark能够控制数据在不同节点上的分区,用户可以自定义分区策略。16年老品牌,上市 IT培训机构 官方网站: http:/H Spark综述Spark与与 Hadoop33、执行策略MapReduce在数据 shuffle之前总是花费大量时间来排序。 Spark支持基于 Hash的分布式聚合,在需要的时候再进行实际排序 。4、任务调度的开销MapReduce上的不同作业在同一个节点运行时,会各自启动一个 JVM。而 Spark同一节点的所有任务都可以在一个 JVM上 运行。16年老品牌,上市 IT培训机构 官方网站: http:/H Spar

4、k综述Spark发展现状发展现状3Spark生态随着 BDAS的完善,已经成型。Spark全面兼容 Hadoop的 数据持久层 。从而 让把计算任务从原来的 MapReduce计算 任务 迁移 到 Spark中更加简单 。目前 Spark的工业应用在国内已经大范围落地。包括 BAT在内的一众互联网公司都建立了自己的 Spark集群16年老品牌,上市 IT培训机构 官方网站: http:/H 技术技术2Spark架构架构3BDAS简介简介4函数函数 式编程简介式编程简介 7Spark应用实例应用实例6Spark安装部署安装部署516年老品牌,上市 IT培训机构 官方网站: http:/H Spa

5、rk关键技术关键技术 RDD的全称是弹性分布式数据集( resilient distributed dataset)是 Spark的核心数据模型, RDD是 Spark中待处理的数据的抽象,它是逻辑中的实体 。对于 使用者来说,你得到的数据操作接口就是 RDD,在对RDD进行处理的时候不需要考虑底层的分布式集群,就像在单机上一样即可,这也正是 Spark的优势之一。什么什么 是是 RDD116年老品牌,上市 IT培训机构 官方网站: http:/H Spark关键技术关键技术 从 Hadoop文件系统输入(比如 HDFS)创建。 从父 RDD转换得到新的 RDD。 将数组或者集合这样的数据结构并行化,转化成 RDD。 通过 cache()函数将计算后的 RDD缓存到内存中。RDD创建方式创建方式216年老品牌,上市 IT培训机构 官方网站: http:/H Spark关键技术关键技术 从逻辑上来看, RDD就是数据。而实际上,从物理上来看, RDD是一种分布式内存的抽象。 Spark中的数据实际上是像 HDFS那样分块存储RDD存储结构存储结构3

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。