大数据技术原理与应用-厦门大学数据库实验室.ppt

上传人:ga****84 文档编号:344003 上传时间:2018-09-24 格式:PPT 页数:45 大小:7.77MB
下载 相关 举报
大数据技术原理与应用-厦门大学数据库实验室.ppt_第1页
第1页 / 共45页
大数据技术原理与应用-厦门大学数据库实验室.ppt_第2页
第2页 / 共45页
大数据技术原理与应用-厦门大学数据库实验室.ppt_第3页
第3页 / 共45页
大数据技术原理与应用-厦门大学数据库实验室.ppt_第4页
第4页 / 共45页
大数据技术原理与应用-厦门大学数据库实验室.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

1、,厦门大学计算机科学系 2018版,林子雨厦门大学计算机科学系E-mail: 主页:http:/ 大数据技术概述(PPT版本号:2018年2月),温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字,Spark编程基础教材官网: http:/ 大数据时代1.2 大数据概念1.3 大数据的影响1.4 大数据关键技术1.5 大数据计算模式1.6 代表性大数据技术,百度搜索厦门大学数据库实验室网站访问平台,1.1大数据时代,1.1.1第三次信息化浪潮,根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革,表1 三次信息化浪潮,1.1.2信息科技为大数据时代提供技术支

2、撑,图1-1 存储价格随时间变化情况,1. 存储设备容量不断增加,1.1.2信息科技为大数据时代提供技术支撑,来自斯威本科技大学(Swinburne University of Technology)的研究团队,在2013年6月29日刊出的自然通讯(Nature Communications)杂志的文章中,描述了一种全新的数据存储方式,可将1PB(1024TB)的数据存储到一张仅DVD大小的聚合物碟片上。,1.1.2信息科技为大数据时代提供技术支撑,图 CPU晶体管数目随时间变化情况,2. CPU处理能力大幅提升,1.1.2信息科技为大数据时代提供技术支撑,图 网络带宽随时间变化情况,3. 网

3、络带宽不断增加,1.1.3数据产生方式的变革促成大数据时代的来临,图 数据产生方式的变革,1.2大数据概念,1.2.1数据量大,根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)人类在最近两年产生的数据量相当于之前产生的全部数据量预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍,1.2.2 数据类型繁多,大数据是由结构化和非结构化数据组成的10%的结构化数据,存储在数据库中90%的非结构化数据,它们与人类信息密切相关,科学研究基因组LHC 加速器地球与空间探测企业应用Email、文档、文件应用日志交易记录

4、Web 1.0数据文本图像视频Web 2.0数据查询日志/点击流Twitter/ Blog / SNSWiki,1.2.3处理速度快,从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同,1.2.4价值密度低,价值密度低,商业价值高以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值,继续装ing,1.3大数据的影响,图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式,实验,理论,计算,数据,1.3大数据的影响,在思维方式

5、方面,大数据完全颠覆了传统的思维方式:全样而非抽样效率而非精确相关而非因果,1.4大数据关键技术,表1-5 大数据技术的不同层面及其功能,1.4大数据关键技术,分布式存储,分布式处理,GFSHDFSBigTableHBaseNoSQL(键值、列族、图形、文档数据库)NewSQL(如:SQL Azure),MapReduce,大数据,两大核心技术,1.5 大数据计算模式,表1-3 大数据计算模式及其代表产品,1.6 代表性大数据技术,1.6.1 Hadoop1.6.2 Spark1.6.3 Flink1.6.4 Beam,1.6.1 Hadoop,图 Hadoop生态系统,1.6.1 Hadoo

6、pMapReduce,图 MapReduce工作流程,Shuffle,MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce编程容易,不需要掌握分布式并行编程细节,也可以很容易把自己的程序运行在分布式系统上,完成海量数据的计算MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理,1.6.1 HadoopYARN,一个企业当中同时存在各种不同的业务应用场景,需要采用不同的计算框架MapReduce实现离线批处理使用Impala实现实时交互式查

7、询分析使用Storm实现流式数据实时分析使用Spark实现迭代计算这些产品通常来自不同的开发团队,具有各自的资源调度管理机制为了避免不同类型应用之间互相干扰,企业就需要把内部的服务器拆分成多个集群,分别安装运行不同的计算框架,即“一个框架一个集群”导致问题集群资源利用率低数据无法共享维护代价高,YARN的目标就是实现“一个集群多个框架”,为什么?,图 在YARN上部署各种计算框架,YARN的目标就是实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架YARN,在YARN之上可以部署其他各种计算框架由YARN为这些计算框架提供统一的资源调度管理服务,并且能够根据各种计算框架的负

8、载需求,调整各自占用的资源,实现集群资源共享和资源弹性收缩可以实现一个集群上的不同应用负载混搭,有效提高了集群的利用率不同计算框架可以共享底层存储,避免了数据集跨集群移动,1.6.1 HadoopYARN,1.6.2 Spark,Spark架构图,1.6.2 Spark,Spark生态系统,1.6.2 Spark,Hadoop存在如下一些缺点:表达能力有限磁盘IO开销大延迟高任务之间的衔接涉及IO开销在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务,Hadoop与Spark的对比,1.6.2 Spark,Spark在借鉴Hadoop MapReduce优点的同时,很

9、好地解决了MapReduce所面临的问题相比于Hadoop MapReduce,Spark主要具有如下优点:Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比Hadoop MapReduce更灵活Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制,Hadoop与Spark的对比,1.6.2 Spark,图 Hadoop与Spark的执行流程对比,1.6.2 Spark,图 Hadoop与Spark执行逻辑回归的时间

10、对比,使用Hadoop进行迭代计算非常耗资源Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据,1.6.3 Flink,Flink架构图,1.6.3 Flink,Flink生态系统,1.6.3 Flink,Flink与Spark的比较,1.6.3 Flink,Spark和Flink全部都运行在Hadoop YARN上,性能为Flink Spark Hadoop(MR),迭代次数越多越明显,性能上,Flink优于Spark和Hadoop最主要的原因是Flink支持增量迭代,具有对迭代自动优化的功能。,性能对比首先它们都可以基于内存计算框架进

11、行实时计算,所以都拥有非常好的计算性能。经过测试,Flink计算性能上略好。,1.6.3 Flink,流式计算比较,它们都支持流式计算,Flink是一行一行处理,而Spark是基于数据片集合(RDD)进行小批量处理,所以Spark在流式处理方面,不可避免增加一些延时。Flink的流式计算跟Storm性能差不多,支持毫秒级计算,而Spark则只能支持秒级计算。,SQL支持,都支持SQL,Spark对SQL的支持比Flink支持的范围要大一些,另外Spark支持对SQL的优化,而Flink支持主要是对API级的优化。,既生瑜,何生亮!,1.6.4 Beam,谷歌,Beam,一统天下?,1.6.4

12、Beam,附录A:主讲教师林子雨简介,单位:厦门大学计算机科学系E-mail: 个人网页:http:/ ISBN:978-7-115-44330-4 定价:49.80元全书共有15章,系统地论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据 库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。在Hadoop、HDFS、HBase和MapReduce等重要章节,安排了入门级的实践操作,让读者更好地学习和掌握大数据关键技术。本书可以作为高等院校计

13、算机专业、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考、学习、培训之用。,附录D:大数据基础编程、实验和案例教程,本书是与大数据技术原理与应用(第2版)教材配套的唯一指定实验指导书,步步引导,循序渐进,详尽的安装指南为顺利搭建大数据实验环境铺平道路深入浅出,去粗取精,丰富的代码实例帮助快速掌握大数据基础编程方法精心设计,巧妙融合,五套大数据实验题目促进理论与编程知识的消化和吸收结合理论,联系实际,大数据课程综合实验案例精彩呈现大数据分析全流程,清华大学出版社 ISBN:978-7-302-47209-4 定价:59元,附录E:Spark编程基础,Spark编程基础厦门大学 林子雨

14、,赖永炫,陶继平 编著披荆斩棘,在大数据丛林中开辟学习捷径填沟削坎,为快速学习Spark技术铺平道路深入浅出,有效降低Spark技术学习门槛资源全面,构建全方位一站式在线服务体系,本书以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming、Spark MLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。,人民邮电出版社出版发行,ISBN:978-7-115-47598-5教材官网:http:/ of Computer Science, Xiamen University, 2018,

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。