ImageVerifierCode 换一换
格式:DOC , 页数:4 ,大小:83KB ,
资源ID:4371198      下载积分:20 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-4371198.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据技术.doc)为本站会员(sk****8)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

大数据技术.doc

1、大数据大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。第一,数据体量巨大。从TB级别,跃升到PB级别。第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平

2、板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。大数据最核心的价值就是在于对于海量数据进行存储和分析。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库

3、,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统,但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载,监控,备份和优化大型数据表的使用在RDBMS的。SOA管理大数据SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物理层次结构模型和架构组件模型。DaaS数据存取的模型描述了数据是如何提供给SOA组件的。物理模型描述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器上的。最后,架构模型描述了数据、数据管理服务和SOA组件之间的关系。从大数据的价值链条来分析,存在三种模式:1- 手握大数据,但是没有利用好;比较典型的是金

4、融机构,电信行业,政府机构等。2- 没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。3- 既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。未来在大数据领域最具有价值的是两种事物:1-拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;2-还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据

5、则是电。如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。那么大数据到底需要哪些云计算技术呢?这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。云计算和大数据之间的关系可以用下面的一张图来说明,两者之间结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。分布式处理技术分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多

6、台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务这就是分布式处理系统的定义。以Hadoop(Yahoo)为例进行说明,Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。而MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式, 在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分

7、布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。你也可以这么理解Hadoop的构成,Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)+OthersHadoop用到的一些技术有:HDFS: Hadoop分布式文件系统(Distributed File System) HDFS (HadoopDistributed File System);MapReduce:并行计算框架;HBase: 类似Google BigTable的分布式NoSQL列数据库;Hive:数据仓库工具,由Facebook贡献;Zook

8、eeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献;Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制;Pig:大数据分析平台,为用户提供多种接口;Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群;Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。云计算云计算是世界各大搜索引擎及浏览器数据收集、处理的核心计算方式。云计算(cloud computing)是商业化的超大规模分布式计算技术。即:用户可以通过已有的网络将所需要的庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的更庞

9、大的系统,经搜寻、计算、分析之后将处理的结果回传给用户。云存储是在云计算(cloud computing)概念上延伸和发展出云存储来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。 当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。