自制PPT.ppt

上传人:ga****84 文档编号:332066 上传时间:2018-09-23 格式:PPT 页数:25 大小:544.50KB
下载 相关 举报
自制PPT.ppt_第1页
第1页 / 共25页
自制PPT.ppt_第2页
第2页 / 共25页
自制PPT.ppt_第3页
第3页 / 共25页
自制PPT.ppt_第4页
第4页 / 共25页
自制PPT.ppt_第5页
第5页 / 共25页
点击查看更多>>
资源描述

1、大数据应用的技术体系及潜在问题,报告人:曹瑞,2017年04月07号,大数据概述,目录,大数据应用的技术体系,大数据应用所面临的问题,4. 总结,1.1 大数据的定义 维基百科对大数据的定义是,所涉及的资料量的规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的各种资讯。 主流定义为3V,即规模性(Volume),多样性(Variety)和高速性(Velocity)。所谓规模性,就是数据的量达到了一定的高度,无法通过当前主流工具来及时处理;多样性指的是对于即将要处理的数据类型,除了有结构化的以外,还有半结构化和非结构化的,增加了操作的复杂

2、性;高速性是指数据的到达与处理必须及时高效,不允许较长的延迟。除此之外,隐私性与有价值性同样是大数据的主要特征。,大数据概述,1,1.2 大数据带来的机遇和挑战 随着大数据时代的到来,其中隐藏的商机也被各路商家发现和利用。美国Target百货公司通过一套客户分析工具,可以对顾客的购买记录进行分析,并随后通过购物手册的形式向顾客推荐一系列可能需要的商品;“京东”、“天猫”和“易购”等购物网站将其海量商品按照各种方式进行分类和推荐,大大增强了网站的可用性。不单是商家,大数据处理技术也给普通用户的日常生活带来了方便性和可靠性。购物网站可以使用户足不出户便可购买到廉价优质的商品,地图软件让人们出门再也

3、不用担心迷路的问题,“微信”、“微博”使得人们随时随地能够跟亲人、朋友联络交流,各种互动娱乐软件帮助人们打发无聊地时光等等。,1.3 大数据处理流程 大数据处理流程包括:数据获取、数据集成、数据分析和解释3个阶段。,数据获取阶段主要是完成对外界数据源的接收和记录操作。其中对大数据的接收方式主要有传感器获取、网页点击获取、移动设备上应用服务的获取以及RFID获取等;对大数据的记录主要完成对元数据的选择,以便构建所需要的数据结构。 数据集成阶段主要完成对已接收数据的抽取、清洗和贮存等操作。 1)抽取:由大数据的定义可知,获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化

4、为单一的或者便于处理的构型,以达到快速分析处理的目的。,2)清洗:对于大数据,并不全是有价值的,有些数据井不是我们所关心的内容,而另一些数据则是完全错误的干扰项,如何“去噪”从而提取出有效数据对我们来说是个巨大挑战。其中一种做法是设计一些过滤器,通过某些规则将那些无用错误的数据过滤出去,防止对最后的分析工作产生影响。3)贮存:将初步处理过得数据进行有效的存储至关重要,若是仅仅将这些记录随便地放入一个数据仓库中,将会造成其访问性受到障碍,从而导致了数据的难以复用。设计一个合适的数据库,可以有效地解决难以复用问题。,数据库的选择可以多种多样,针对特定数据设计的特定数据库将会更加高效、适用。数据分析

5、和解释阶段:当用户提出查询请求时,我们需要做的就是进行及时地分析与建模,并将结果以用户可接受的方式返回给用户。这一阶段的用户查询可以是多种多样的,不同的查询输入应该得到对应的结果,即使面对用户的错误查询也应该给出相应的错误友好处理。,大数据应用的技术和系统包括: 云计算及其编程模型MapReduce 大数据获取技术 面向大数据处理的文件系统 数据库系统 大数据分析技术,大数据应用的技术体系,2,TEXT HERE,TEXT HERE,TEXT HERE,TEXT HERE,云计算及其编程模型MapReduce,云计算定义:一个大规模的由规模经济驱动的分布式模型,位于其中的抽象的、虚拟的、动态可

6、扩展的、可管理的计算能源、存储、平台、服务等通过因特网交付给外围客户。云计算能为大数据提供强大的存储和计算能力,可以迅速、方便地为大数据提供服务,另一方面,大数据的处理需求也为云计算提供了更多更好地应用场景。由此,云计算作为大数据的支撑技术而倍受业界关注。2004年,谷歌公司提出的MapReduce技术,以其利用大规模廉价服务器以达到并行处理大数据的目的而倍受学术界和工业界的关注,广泛应用于机器学习、数据挖掘等诸多领域。,基于MapReduce的大数据分析处理研究也在不断深入,MapReduce作为一种非关系数据库的数据管理工具代表,克服了关系数据库扩展性方面的不足,将计算推向数据也迎合了大数

7、据时代的内在需要,成为大数据处理的基本工具。MapReduce对于大数据处理的基本构思是分而治之,将大数据任务分解为多个子任务,将得到的各个子结果组合并成为最终结果。,MapReduce对大数据的处理可抽象为两个主要阶段,Map阶段先对初始的键值(Key/Value)对进行处理,产生一系列的中间结果(Key/Value)对,然后再通过Reduce阶段合并所有具有相同Key值的(Key/Value)对,得到最终结果。,TEXT HERE,TEXT HERE,TEXT HERE,TEXT HERE,MapReduce处理数据的基本思路图,TEXT HERE,TEXT HERE,TEXT HERE,

8、TEXT HERE,大数据获取技术,每天都有大量数据产生,并且这些数据通过不同的途径,以不同的形式被接收和记录。主要有以下几种常见的大数据获取途径。(1) 传感器技术(2) Web2.0技术(3) 条形码技术(4) RFID技术(5) 移动终端技术,TEXT HERE,TEXT HERE,TEXT HERE,TEXT HERE,文件系统,文件系统是支撑上层应用的基础,本小节将简要介绍面向大数据处理的文件系统如谷歌分布式文件系统(GFS),以及一些其他的分布式文件系统。谷歌开发的文件系统GFS,是一个基于分布式集群的大型的分布式文件系统,它为MapReduce计算框架提供底层数据存储和数据可靠性

9、。GFS采用廉价普通磁盘,并把磁盘数据出错视为常态,其自动多数据备份存储也增加了可靠性。,TEXT HERE,GFS基本工作过程如下:(1)在程序运行前,数据已经存储在GFS文件系统中,程序执行时应用程序会告诉GFS Se-rver所要访问的文件名或者数据块索引是什么。(2) GFS Server根据文件名和数据块索引在其文件目录空间中查找和定位该文件或数据块,并将这些位置信息回送给应用程序。(3)应用程序根据GFS Server返回的具体Chunk数据块位置信息,直接访问相应的Chunk Server。(4)应用程序直接读取指定位置的数据进行计算处理。,TEXT HERE,除了谷歌的GFS,

10、业界其他针对大数据存储需求的文件系统也层出不穷。例如:Hadoop的文件系统HDFS、SUN公司开发的Lustre、Facebook推出的针对海量小文件的Haystack文件系统。,TEXT HERE,TEXT HERE,TEXT HERE,TEXT HERE,数据库系统,并行数据库起源于20世纪80年代,并且在不断发展和创新,高性能和高可用性是其最终的目标和优势。并行数据库通过简单易用的结构化查询语言(SQL)向外提供数据访间服务,加上在索引、数据压缩、可视化等技术方面的不断扩展,使其具有了高性能的优势。但是并行数据库由于扩展性方面的缺陷无法胜任大数据的处理工作,因此谷歌公司推出了以BigT

11、able为代表的未采用关系模型的NoSQL( Not only SQL)数据库。,TEXT HERE,TEXT HERE,TEXT HERE,TEXT HERE,NoSQL数据库具有模式自由、备份简易、接口简单和支持海量数据等特性,对于实现大数据的存储和处理十分有效。BigTable的基本构架如下图所示,BigTable中的数据均以子表形式保存在子表服务器上,最终以GFS文件形式存储在文件系统中。客户端程序直接和子表服务器通信,Chuhhy服务器完成对子表服务器的状态监控,主服务器通过查看Chuhhy服务器目录来终止出现故障的子服务器井将其数据转移至其他子服务器。另外,主服务器还完成子表的创建

12、和负载均衡等操作。,TEXT HERE,TEXT HERE,TEXT HERE,TEXT HERE,BigTable基本构架图,TEXT HERE,TEXT HERE,TEXT HERE,TEXT HERE,大数据分析技术,用于大数据集的分析方法很多,包括统计学、计算机科学等各个领域的技术。下面将简要介绍其中几种典型的大数据分析技术。(1) A/B测试(2) 聚类分析(3) 集成学习(4) 神经网络(5) 自然语言处理,大数据时代面临的首要问题是人力和财力问题,IDC分析称,大数据相关人才的欠缺将会成为影响大数据市场发展的一个重要因素。据调查,仅美国就缺少大约14万到19万的具有深层次数据分析

13、技巧的专业技术人员以及150万针对大数据的经理人。据阿里巴巴称,虽然其各类业务产生的数据为数据分析创造了非常好的基础条件,然而却招聘不到合适的数据科学家而影响了研发进展。因此,各国对大数据人才的培养工作应当快速有效地着手执行。,大数据应用所面临的问题,3,因此,大数据的接收和管理也需要大量的基础设施和能源,无论是传感器还是数据中心的服务器,都需要大量的硬件投入和能源消耗,这也就意味着大数据处理的财力需求极为可观。如何处理好大数据产生的资金投入比例,也成为了各国和各企业决策者面临的难题。另外,大数据还将面临严重的安全和隐私间题。,大数据时代挑战与机遇井存,正确处理好大数据,不仅符合企业的利益,也给人们日常生活带来极大的便利。本文对大数据的基本概念、处理流程以及相关技术进行了简要的探讨,并分析了大数据可能带来的一些问题及应对策略。云计算目前是处理大数据的基础技术,但其在安全和隐私方面的保障工作仍让不少人感到怀疑,根本原因还是个人和商业的信息都存放在远端的巨头们提供的看不见的“云”上。大数据时代已经到来,但是,相应的技术体系和社会保障仍是函需研究的应用课题。,总结,4,谢谢大家!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。