1、I 本 科 毕 业 论 文 云存储 技术 的 比较 研究 The Comparison and Research of Cloud Storage Technology 姓 名: 学 号: 学 院:软件学院 系:软件工程 专 业:软件工程 年 级: 校内指导教师: 年 月 II 摘 要 云 存储 是 继 云计算 之 后出现 的技术。 传统的存储方案已无法满足 全球数据量的急速增长 的需求。因此, 通过 云存储 技术,集合分布于 全球 的存储和计算资源,实现资源的共享化,虚拟化和透明化 , 成为解决存储问题的新出路。 2007 年 Amazon 公司 就推出云存储产品 弹性计算云 ; Sun 公
2、司 更是在 2005 年就提出 按需计费 的存储服务。这些都是 比较典型的云存储服务。 云存储 的概念与云计算相似,但在结构和应用上各有偏重 。 云存储借鉴了并行计算和 网格计算的存储特点,但三者各有特点 。并行计算存储的重心在主节点上。网格存储与云存储都采用分布式技术,但在硬件设备上,网格存储更多采用高性能机,云存储采用廉价服务器;同时二者对元数据的设计不同。论文以多方位分析云存储为目的,通过比较分析的方式,对云存储及其相关技术进行研究,做出以下工作。 1、 对云存储技术的分析。云存储 结构分为存储,基础管理,应用接口,访问四层, 在结构上比云计算更偏向存储, 在应用上云存储偏向数据密集型应
3、用; 云存储结构的核心是基础管理层,主要技术是分布式存储,代表技术是Google文件系统和 Hadoop。 2、 云存储与并行计算存储、网格存储的比较。并行计算没有采用分布式技术,存储重心都在主节点上 ,云存储是将数据存储于子服务器 ;网格存储同云存储一样都是基于分布式存储技术,但网格存储多采用 大型机作为服务器,云存储 是采用廉价服务器 ,因此云存储在数据管理和安全策略上有更多要求 。 关键词: 云存储 ; 存储网格 ; 并行计算; 分布式系统 III Abstract Cloud Storage is a technology which appears after cloud compu
4、ting advanced. Traditional storage schema can fulfill the need of current data increment. So by using Cloud Storage, we can assemble the distributed storage and compute resource, achieve the purpose of resource virtualization and transparence, then have a new solution to solve the storage problem. I
5、n 2007, Amazon released its Cloud Storage production, the EC2; and Sun came up with the idea of utility computing even early in 2005. These are all typical Cloud Storage services. Cloud Storage is similar with Cloud Computing, but these two are different in structure and application. Cloud Storage a
6、dopts Parallel Computing and Grid Computing, each of these has its own characteristic Parallel Computing stores all data in its main servers; Grid Storage and Cloud Storage both use distributed storage technology, but are different in hardware device. The issue, with the purpose of analyze Cloud Sto
7、rage in aspects, study Cloud Storage and other related technology by comparison, then do the following works. Firstly, analysis of Cloud Storage. Cloud Storage has a four layers structure of storage, basic management, interface of application and accessing. Compare with Cloud Computing, Cloud Storag
8、e structure concentrates more on storage and belongs to Data-intensive application. The key structure of Cloud Storage is basic management, and its main technology is distributed storage, such as Google File System and Hadoop. Secondly, comparison between Cloud Storage, Parallel Computing and Grid S
9、torage. Parallel Computing doesnt use distributed technology, it stores all data on the main server, Cloud Storage stores its data in chunk servers; Grid Storage and Cloud Storage both adopt distributed technology, but Grid Storage relays on high-performance computer, Cloud Storage use inexpensive s
10、erver. Key words: Cloud Storage; Grid Storage; parallel computing; distributed system. IV 目 录 第一章 绪论 . 1 1.1 引言 .1 1.2 论文组织结构 .1 第二章 云计算简述 . 2 2.1 云计算的起源 .2 2.2 云计算技术分析 .2 2.3 云计算应用的现状 .2 2.4 小结 .3 第三章 云存储技术分析 . 4 3.1 云存储简述 .4 3.2 云存储应用实例 .4 3.2.1 Amazon 云存储 .4 3.2.2 Sun 公司的云存储 .5 3.2.3 Facebook 的云存
11、储 .5 3.2.4 EMC 的云存储 .6 3.3 云存储结构模型分析 .6 3.3.1 存储层 .6 3.3.2 基础管理层 .8 3.3.3 应用接口层 .8 3.3.4 访问层 .8 3.4 云存储基础管理层分析 .8 3.4.1 Google 文件系统分析 .8 3.4.2 面向列的数据存储结构 Bigtable.13 3.5 开源 Hadoop 技术分析 .18 3.5.1 Hadoop 与 MPI.18 3.5.2 Hadoop 与 Google 存储技术 .18 3.5.3 Hadoop 文件系统分析 .19 3.5.4 Hadoop 的 Map/Reduce 分析 .20 3
12、.6 小结 .26 第四章 并行计 算及其存储技术 . 27 4.1 并行计算的由来和特点 .27 V 4.2 并行计算的核心 MPI .27 4.2.1 MPI 的部署 .27 4.2.2 MPI 实例分析 .28 4.3 小结 .32 第五章 网格存储技术 . 33 5.1 网格的起源 .33 5.2 网格的应用 .33 5.3 网格存储结构分析 .35 5.3.1 存储网格的层次 .35 5.3.2 存储网格的体系结构 .36 5.4 网格存储与计算实例分析 .38 5.5 本章小结 .39 第六章 云存储与并行及网格存储技术 . 40 6.1 云存储与并行存储技术的比较 .40 6.2
13、 云存储与网格存储技术的比较 .41 6.3 小结 .41 第七章 总结与展望 . 42 7.1 总结 .42 7.2 展望 .42 参考文献 . 44 致 谢 . 46 VI Content Chapter 1 Introduction . 1 1.1 Preface .1 1.2 The structure of this paper.1 Chapter 2 Analysis of Cloud Computing. 2 2.1 The origin of Cloud Computing.2 2.2 The analysis of Cloud Computing .2 2.3 The cur
14、rent situation of Cloud Computing .2 2.4 Summary.3 Chapter 3 Analysis of Cloud Storage. 4 3.1 A brief description of Cloud Storage .4 3.2 The application of Cloud Storage .4 3.2.1 Amazon .4 3.2.2 Sun .5 3.2.3 Facebook .5 3.2.4 EMC .6 3.3 Structure of Cloud Storage .6 3.3.1 Layer of Storage .6 3.3.2
15、Basic Management .8 3.3.3 Interface of application .8 3.3.4 Accessing .8 3.4 Analysis of basic management layer.8 3.4.1 The Goolge File System .8 3.4.2 The Bigtable .13 3.5 Hadoop .17 3.5.1 Hadoop and MPI .18 3.5.2 Hadoop and Google technology.18 3.3.3 The Hadoop File System .19 3.3.4 Map and Reduce
16、.20 3.6 Summary.25 Chapter 4 Parallel Computing and its storage technology . 26 4.1 The origins of Parallel Computing .26 VII 4.2 The MPI .26 4.2.1 The deployment of MPI .26 4.2.2 The demos of MPI .27 4.3 Summary.31 Chapter 5 Grid storage technology . 32 5.1 Origins of Grid .32 5.2 Applications of G
17、rid.32 5.3 Analysis of Grid Storage structure .34 5.3.1 Layers of Storage Grid .34 5.3.2 Structure of Storage Grid .35 5.4 The case study of Grid Computing and Storage .38 5.3 Summary.39 Chapter 6 Comparison between Cloud Storage and other storage technologies . 40 6.1 Comparison between Cloud Stora
18、ge and Parallel Computing .40 6.2 Comparison between Cloud Storage and Grid Storage.41 6.3 Summary.41 Chapter 7 Summary and future works . 42 7.1 Summary.42 7.2 Future works .42 References . 44 Acknowledgements . 46 第一章 绪论 1 第一章 绪论 1.1 引言 随着网络应用的稳定,全球进入数据爆炸的时代, 英特尔万亿级计算研究项目总监吉姆 海德 称: “我们已经进入 ZB时代,并且
19、很快将迈入 YB年代 ”。 Google服务器保存了超过 60亿的网页, Facebook用户超过 4亿,全球页面浏览量为 5700亿,这种情况下,传统的以服务器为核心的存储技术已无法满足用户应用和数据存储的需求, 而结合了并行就算,网格计算及分布式文件系统等技术的云存储技术应运而生。 本论文目的是通过对传统存储技术的借鉴,并比较并行计算和网格计算的存储模式,对云存储技术做出全面的分析 ,作为对未来网络展望的基础。 1.2 论文组织结构 本论文分为七章,首先 简单介绍了云存储技术出现的背景和契机。接着分析了传统存储技术的优缺点,然后介绍并行计算和网格计算的存储模式,结合这两种技术,研究云存储技
20、术的特点。再列举目前突出的云存储应用实例,并提出 对未来云存储的展望。 论文具体章节如下: 第一章 、 通过介绍目前网络数据存储的背景,提出云存储技术诞生的背景,并标明论文的目的 和结构 。 第二章 、介绍云计算技术 。 第三章 、 对 云存储技术进行详细地 分析。 第四章 、 阐述了 并行计算 及其代表技术 MPI,并对其实例进行较详细的分析。 第五章 、分析网格存储结构模型,并结合其应用做分析 。 第六章 、将云存储与并行计算、网格存储依次进行比较。 第 七 章 、 对文章做出总结并提出个人对未来云存储的看法。 云存储技术的比较研究 2 第二章 云计算 简述 2.1 云计算的起源 云计算是
21、 Google 于 2007 年率 先提出的计算理念,它借鉴了并行计算,分布式计算,网格计算等技术, 实现 集中互联网内的软硬件计算资源,解决大量用户的不同需求的目的。继 Google 之后,微软, IBM, Sun 等公司相继推出自己的云计算产品。 2.2 云计算技术分析 云计算继承了并行计算,网格计算的很多优秀思想,如主从式计算模式,虚拟化组织和资源等,但云计算自身有如下几方面的特点 1: 一、资源虚拟化 。资源虚拟化 是由网格计算的核心思想,即在互联网范围内,构建一个巨大的资源共享池。不同的是,网格计算 旨在将各种异构资源集中起来解决某个特定问题;而云计算的构想是,用户根据自身的需求,从
22、资源共享池中获得一定资源来解决问题。 二、云计算 的硬件基础。云计算的创新之一是采用了大量廉价服务器作为硬件架构的基础,而并行计算,网格计算等都是 依赖于高性能的大型计算机。这也对云计算的容错和节点失效应对能力提出很高的要求。 三、云计算即服务 3。云计算已不仅是一种 计算技术,它包含了软件即服务,平台即服务等思想,不少涉足云计算的公司都提出按需计费的理念,这些都是作为一种服务提供给千千万万的用户。 2.3 云计算应用的现状 云计算 22008-2013 年的市场效益见图 2-1: 第二章 云计算简述 3 图 2-1 云计算市场效益 (2008 年 -2013 年 ) 自 2008 年起,历经 2009 年的短暂低迷,到 2010 年的强势回归,并保持每年可观的 28%的增长率, 估计 2010 年底云计算市场效益就能突破 1000 亿美元的大关。福布斯年初评出 2010 年十大趋势,“应用走向云计算”列第一,年将过半,呈现的也确实是这种趋势:微软推出