1、I摘 要近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百 TB 甚至数十至数百 PB 规模的行业或企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力。因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。百度目前的总数据量已超过1000PB,每天需要处理的网页数据达到 10PB100PB;淘宝累计的交易数据量高达 100PB;Twitter 每天发布超过 2 亿条消息,新浪微博每天发帖量达到 8000 万条;中国移动一个省的电话通联记录数据每月可达 0.5PB1PB;一个省会城市公安局道路车
2、辆监控数据三年可达 200 亿条、总量 120TB。据世界权威 IT 信息咨询分析公司 IDC 研究报告预测:全世界数据量未来10 年将从 2009 年的 0.8ZB 增长到 2020 年的 35ZB(1ZB=1000EB=1000000PB),10 年将增长 44 倍,年均增长 40%。 由于数据量的快速增长,对大数据的操作和结构化查询在日常的数据处理经常用到,聚集查询也是查询时使用比较多的查询。关键词:聚集查询;结构化查询IIABSTRACTIn recent years, with the rapid development of computer and information tec
3、hnology,, industry application system has expanded , and the data generated by the applciations grows fast. The data which always reaches hundreds of TB or tens to hundreds of PB has been far beyond the existing traditional processing capacity of information system. Therefore, to seek effective data
4、 processing technology, method and means is in great need in the real world.Baidu now owns data exceeded 100PB, and it has to deal with data with volume of 10 PB 100 PB; the transaction data of Taobao reaches 100 PB; Twitter releases more than 200 million messages a day; Sina Weibo posts 80 million
5、message a day; data generated of one province of China Mobile Communications telephone is up to 0.5PB 1PB a month; a capital city the road vehicle monitoring data of a capital city in three years is up to 120TB. According to the world authority IT information consulting research firm IDC analysis re
6、port, the amount of data generated by the whole world in the next 10 years will increase from 0.8ZB in 2009 to 35ZB 35 in 2020(1ZB = 1000EB = 1000000PB).The data volume grows 44 times in ten years, with an average annual growth of 40%. Due to the rapid growth in data volume, the operation of the lar
7、ge data structured query is often used in the daily data processing, aggregate query is one of the queries used mostly in big data processing. Keywords:Aggregate Query; Structured QueryIII1 绪论 .11.1 本文研究的背景和意义 .11.2 国内外研究现状与热点 .41.2.1 大数据研究文献的国别和机构分布 .41.2.2 大数据研究的学科领域分布 .51.2.3 大数据产业技术创新的重点方向 .51.3
8、 论文主要研究内容 .61.3.1 hdfs 存储数据概述 .61.3.2 mapreduce 基本原理介绍 .72 相关理论和技术 .92.1 MapReduce 基本理论 .92.1.1 MapReduce 简介 .92.1.2 MapReduce 实现框架 .102.1.3 MapReduce 编程模式 .102.1.4 MapReduce 控制节点的数据结构和容错机制 .112.1.5 MapReduce 的作业调度机制 .122.2 数据的结构化查询 .132.3 hadoop 的 hdfs 存储 .133 结构化查询到 mapreduce 转化 .143.1 实验平台的搭建 .14
9、3.1.1 三种环境介绍 .143.1.2 伪分布环境搭建: .153.2 结构化聚集查询分析 .213.3 分布式存储和分布式计算介绍 .234 实验验证与程序的运行结果 .244.1 单机环境运行结果 .244.2 伪分布式环境的运行结果 .264.2.1 大数据文件上传的分布式环境存储系统(hdfs) .264.2.2 在伪分布环境下运行 mapreduce 程序 .275 实验结果分析 .316 重要代码分析 .31IV7 总结与展望 .327.1 总结 .327.1.1 取得的结果和收获 .327.1.2 存在的不足 .337.2 对大数据的展望 .33参考文献 .34致 谢 .35
10、11 绪论1.1 本文研究的背景和意义早几年人们把大规模数据称为“海量数据”,但实际上,大数据(Big Data)这个概念早在 2008 年就已被提出。2008 年,在 Google 成立10 周年之际,著名的自然杂志出版了一期专刊,专门讨论未来的大数据处理相关的一系列技术问题和挑战,其中就提出了“Big Data”的概念。随着大数据概念的普及,人们常常会问,多大的数据才叫大数据?其实,关于大数据,难以有一个非常定量的定义。维基百科给出了一个定性的描述:大 数据是指无法使用传统和常用的软件技术和工具在一定时间内完成获取、管理和处理的数据集。进一步,当今“大数据”一词的重点其实已经不仅在于数据规
11、模的定 义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技 术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。由于大数据处理需求的迫切性和重要性,近年来大数据技术已经在全球学术界、工业界和各国政府得到高度关注和重视,全球掀起了一 个可与 20 世纪 90 年代的信息高速公路相提并论的研究热潮。美国和欧洲一些发达国家政府都从国家科技战略层面提出了一系列的大数据技术研发计划,以推动政 府机构、重大行业、学术界和工业界对大数据技术的探索研究和应用。早在 2010 年 12 月,美国总统
12、办公室下属的科学技术顾问委员会(PCAST)和信息技术顾问委员会(PITAC)向奥巴马和国会提交了一份 规划数字化未来的战略报告,把大数据收集和使用的工作提升到体现国家意志的战略高度。报告列举了 5 个贯穿各个科技领域的共同挑战,而第一个最重大的挑 战就是 “数据”问题。报告指出:“如何收集、保存、管理、分析、共享正在呈指数增长的数据是我们必须面对的一个重要挑战”。报告建议:“联邦政府的每一个机构和 部门,都需要制定一个大数据的战略”。2012 年 3 月,美国总统奥巴马签署并发布了一个“大数据研究发展创新计划”(Big Data R 同时大数据含有较多噪音、样本稀疏、样本不平衡等特点使得现有
13、的很多机器学习算法有效性降低。因此,微软全球副总裁陆奇博士在 2012 年全国第一届 “中国云/移动互联网创新大奖赛”颁奖大会主题报告中指出:“大数据使得绝大多数现有的串行化机器学习算法都需要重写”。大数据技术的发展将给我们研究计算机技术的专业人员带来新的挑战和机遇。目前,国内外 IT 企业对大数据技术人才的需求正快速增长,未来 510 年内业界将需要大量的掌握大数据处理技术的人才。IDC 研究报告指出,“下一个 10 年里,世界范围的服务器数量将增长 10 倍,而企业数据中心管理的数据信 息将增长 50 倍,企业数据中心需要处理的数据文件数量将至少增长 75 倍,而世界范围内 IT 专业技术
14、人才的数量仅能增长1.5 倍。”因此,未来十年里大数据 处理和应用需求与能提供的技术人才数量之间将存在一个巨大的差距。目前,由于国内外高校开展大数据技术人才培养的时间不长,技术市场上掌握大数据处理和应 用开发技术的人才十分短缺,因而这方面的技术人才十分抢手,供不应求。国内几乎所有著名的 IT 企业,如百度、腾讯、阿里巴巴和淘宝、奇虎 360 等,都大量需要大数据技术人才。41.2 国内外研究现状与热点二十年来,全球大数据研究经历了一个从起步到活跃的过程。基于大数据相关的 4573 篇文献和 8571 项专利,对其研究进展、分布和前沿进行分析,可以得出如下结论:1、美国是大数据研究的中心地带,技
15、术创新活跃,国际间合作频繁。2、我国对大数据研究的资助力度较大,学术论文较多,但与国外创新合作较少。3、系统、性能和算法是大数据研究的重点方向和核心基础。4、大数据产业创新不仅聚焦软件技术研发,还在硬件技术上重点布局。1.2.1 大数据研究文献的国别和机构分布1、美国是大数据研究的中心地带,我国紧随其后。美国是研究者最多的国家,约占总数的 34%,中国紧随其后,占 23%,美中两国合计占到总数的一半以上。其余的前 10 位国家包括:德国、英国、日本、印度、加拿大、法国、澳大利亚和韩国。2、大数据研究文献发展的“三阶段”特征显著。第一阶段是 1994-2001 年,年均文献不超过 50 篇,研究
16、文献主要为“美国籍”。第二阶段为 2002-2010 年,年均文献超过 100 篇,且以年均 20%的幅度稳步增长,突出特点是我国文献开始出现,并在 2008-2009 年超过了美国。第三阶段为 2011-2013 年,研究文献出现爆发式增长,3 年文献共达到 2053 篇,占 20 年累计总数的 44.9%;主要原因是美国文献的再次崛起,3 年内贡献了 735 篇,而我国为 489 篇。3、我国政府对大数据研究的资助力度较大。文献数前 25 位的研究机构中,美国 16 所大学上榜,共发表论文 559 篇,占美国文献总数的 36.4%。中国则有 6 所大学机构上榜,其中中科院发表论文数居世界第
17、一,达到109 篇,之后依次是清华大学、上海交通大学、哈尔滨工业大学、浙江大学和华中科技大学。6 所大学机构共计发表论文 244 篇,约占我国大数据文献总数的四分之一。从资助机构上看,资助 5 以上的机构一共有 36 家,大多为国家基金组织和政府部门。其中,中国国家自然科学基金、美国国家科学基金和国立卫生研究院是三家资助发表文献最多的机构,分别达到 122 篇、109 篇和 57 篇。而企业更多聚焦专利领域进行布局,仅有谷歌和微软两家公司资助的研究文献超过 5 篇。54、我国大数据研究的质量有待进一步提升。一方面,从合作关系上看,我国的大数据研究与世界联系不多,仅与台湾地区、德国有少量合作,而
18、美国与韩国、澳大利亚、法国、瑞典、瑞士、土耳其等国家保持着密切的合作关系,德国、加拿大、英国之间也有不少合作。另一方面,从文献被引频次来看,研究文献的质量低于美国,美国 1537 篇论文平均引用次数达到 14.20 次,高引用指数为 66,而我国文献的高引用指数仅有 20。1.2.2 大数据研究的学科领域分布1、大数据研究开始渗透进入应用领域。文献涉及的学科领域超过100 个。在排名前 15 位的学科领域中(图 5),除了数学、物理学等基础学科外,更是出现了微生物学、环境生态学、运筹学与管理科学等应用学科,说明大数据技术已经渗透进入各个基础和应用学科领域。2、系统、性能和算法是大数据研究的重点
19、方向。从大数据涉及的主要学科领域分布中可以看到,大量文献集中在数据处理的系统、性能和算法上,如数据挖掘、机器学习、主成分分析与分类等方向位于核心层,其次为神经网络、降维运算、数据存储、关联规则、数据集等。3、核心基础技术文献被大量引用。以谷歌公司的 Mapreduce 为例,作为大数据的基础技术,该文献后续被近 700 篇论文所引用,切实推动了分布式计算、Hadoop 等热点研究的开展。1.2.3 大数据产业技术创新的重点方向与学术文献研究不同的是,从企业专利布局角度出发,更有利于分析大数据产业技术创新的重点方向。为此,基于 Orbit 专利数据库和VOSviewer 软件,对 14 家国际性
20、的 IT 企业、互联网企业以及新兴大数据企业自 2006 年以来的 8571 项专利进行分析:1、大数据软件技术已趋于体系化。在数据的基本框架、采集传输、存储、处理分析等各个环节上,都有不同于以往抽样、封闭、小规模条件的新技术予以支撑,大数据软件技术体系逐步趋于完整。在此基础上,传统的 IT 企业、互联网企业纷纷开发了基于大数据的行业解决方案和商业应用平台,一批新兴大数据企业加快发展并进行商业模式创新,产业创新生态系统所需的各项条件日趋完备。2、企业在大数据硬件技术上的布局不亚于软件。与学术研究侧重于软件技术不同,企业十分重视相关硬件设备的技术布局。一方面,按照国6际专利进行分类,数据处理、存
21、储和相关设备依然是专利较为集中的领域,如大数据专利数量较多的 G06F-017、G06F-015、G06F-007、G06F-003、G06F-009、G06F-021 等分类号,均侧重于计算机数据的处理、存储、控制、接口、安全等硬件电路、设备和零部件。另一方面,8571 项专利集聚形成几个较大的专利群,包括采集显示和传输、处理分析、记录存储、数据管理、共享与协作等,其中规模最大的专利群,依然是与采集、显示和传输相关的外围信息硬件设备。值得一提的是 14 家国际性企业大数据技术专利的一部分贡献来自于其在华分公司。857 项专利中,公开国为中国的有 1757 项,优先权国在中国的有 170 项,
22、说明了我国研究人员在大数据领域研究水平的不断提升。1.3 论文主要研究内容本论文主要研究的基于大数据的结构化查询到 MapReduce 的转化,在实际的应用中对大数据的查询经常用到,所以了解和研究数据化的结构化查询在实际应用中比较方便本文讲述了,分布式存储和分布式计算的基本原理和基本架构,从底层讲述了 map 函数和 reduce 函数工作的基本过程,对数据的研究和挖掘非常简单。本文主要讲述的是 Hadoop 对处理海量数据的处理过程,对海量数据的查询转换到 MapReduce 的具体流程,以及海量数据在 hdfs 的具体存储过程。主要研究的是结构化查询中的聚集查询,聚集查询在结构化查询中是经常用到的查询,在实际应用中用到的也非常广泛。1.3.1HDFS 存储数据概述Hadoop 有一个称为 HDFS 的分布式系统,全称为 Hadoop Distributed Filesystem。HDFS 是 Hadoop 的旗舰级文件系统。HDFS 以流式数据访问模式来存储超大文件,运行与商用硬件集群上。1)流式数据访问:HDFS 的构建思路是“一次写入,多次读取是最高效的访问模式“。读取整个数据集的实验延迟比读取第一条记录的时间延迟要重要。 2)商用集群:Hadoop 并不需要运行在昂贵且高可靠的硬件上,普通的硬件便可以。每个磁盘都有默认的数据块大小,这是磁盘进行数据读写的最小单位。
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。