硕士论文——在线云存储技术的研究.doc

上传人:滴答 文档编号:1743426 上传时间:2019-03-14 格式:DOC 页数:8 大小:108KB
下载 相关 举报
硕士论文——在线云存储技术的研究.doc_第1页
第1页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、在线云存储技术的研究摘 要:作为 SaaS 的典型应用,在线云存储提供了云端的数据存放和操作,国内的各大互联网公司都对大众提供了各自的“云网盘” ,用户可以将自己的文件上传到云端,然后便可以通过网络访问这些文件。云网盘在技术实现上仍需要考虑多方面的问题,如用户鉴权、物理数据存储、空间压缩等。同时,用户日益关注的隐私、数据可靠性及如何盈利也是需要考虑的对象。本文通过对在线云存储实现中可能会遇见的技术问题进行解读,通过阅读相关资料和文档,并结合日常学习中所学到的知识,从一定程度上提出相应的解决方案。关键词:云计算;在线云存储;云网盘;解决方案Abstract: As a typical appli

2、cation of SaaS, online cloud storage provides cloud data storage and handling, the major Internet companies are on the public provides their cloud network disk, users can own file upload to the cloud, can then be accessed through a network is presented in this paper. Cloud network disk in the techno

3、logy still need to consider many aspects, such as user authentication, physical data storage, space compression. At the same time, users are increasingly concerned about privacy, data reliability and how to profit is also a need to consider the object. In this paper, the realization of online cloud

4、storage may be met the technical issues on the interpretation of, by reading the relevant information and documents, combined with the knowledge learned in daily study, from a certain extent, and put forward the corresponding solutions.Key words: Cloud computing; Cloud storage; SkyDrive cloud; Solut

5、ions随着时代的发展和科技的不断进步,最近十年中,全球文件资源总量呈现爆发式的增长。为了解决海量用户文件的存储问题,云存储技术应运而生。云存储是与云计算同时兴起的一个概念,同时云存储也是云计算所不可或缺的一个部分。随着云计算技术的蓬勃发展,云存储技术也得到了深入的研究与广泛的应用。作为云计算的一个基础部分,在线云存储 1,2提供了数据存储的服务,用户不需要建立自己的数据中心,处理备份、CDN( Content Delivery Network,即内容分发网络)及灾难恢复等重要且复杂的功能,只需要像使用电脑的内置硬盘一样来使用在线云存储。然而在线云存储同时也具有一些缺点3,诸如用户无法确认存储

6、服务提供商的安全性、存储服务提供商的安全性、可靠性和可用性仅取决于服务提供商等。云存储的概念一经提出,就得到了众多厂商的支持和关注,这从当前市场上各式各样的云网盘就可见一斑。目前较为著名和实力较强的个人在线云存储提供商 4,5有国外的Apple iCloud、DropBox、Google Drive、Microsoft OneDrive 和 Mega 等,国内则有百度云、360 云盘、腾讯微云、华为 DBank 等众多的网盘提供商。国外个人在线云存储主要卖点在于自身的保密性和可靠程度,而国内的各大提供商则致力于宣传能提供超大的存储空间、数据“秒传”等一些用户体验上的特性。这些功能的技术实现方法

7、都将在下文提及。1 在线云存储的技术难题及解决方案1.1 基本存储服务传统的情况下,所有的存储设备都在主机/服务器内部,无法和其他主机共享。随着网络的发展,主机之间可以使用网络进行数据的传输,这种架构称为以服务器为中心的存储架构,在这种架构中,每个服务器都有自己的存储设备。对某个服务器的维护或某个服务器出现故障都会导致信息的无法访问,从而产生了信息的难于保护、不易管理、信息孤岛以及维护开销大等问题。为了解决这些问题,便产生了一种新的架构,称为以信息为中心的架构。在这种架构下,存储设备集中管理,不再依附于服务器。多个服务器之间可以共享存储设备。在部署新的服务器时,从共享存储设备中为它分配存储。共

8、享存储的容量可以通过添加新设备的方式动态的增加而不影响信息的可用性。这种架构让信息的管理变得更加简单并拥有更好的成本效益。在这种架构下最典型的便是 NAS(Network Attached Storage:网络附属存储) ,如图 1所示。NAS 6是专用的高性能文件共享和存储设备,它是企业文件服务器的一种解决方式,也就是以信息为中心的架构中存储信息的部分。NAS 设备使用自带的操作系统和集成软件、硬件组件,满足特定的文件服务需求。NAS 对文件 I/O 进行了特定的优化,在传输速度上优秀于各类的通用文件服务器。同时,当今的 NAS 甚至还支持文件级虚拟化,消除了文件数据和物理存储之间的依赖关系

9、,即使当文件在物理介质中进行移动时也能实现不间断的访问操作。 图 1 网络连接存储架构 在线云存储系统中的信息量级巨大,且同时会有多个用户访问,并无时不刻的需要保护数据可靠性,因此这种以信息为中心的存储架构完全符合在线云存储的需要。另一方面,云计算和虚拟化的诞生也使共享资源的集中管理变为了可能。1.2 独立冗余磁盘阵列当今物理存储器的价格已经非常低廉,热衷于科技和下载的人很容易拥有 6 块每块2TB 大小的存储器,而在数据中心中,动辄就会有几万甚至几十万块的物理存储器。虽然单块物理存储器故障的概率很小,但当大量的物理存储器同时运作时,使用简单的概率论知识就能知道,其不出现任何故障几乎是不可能的

10、。举例来说,某种年故障率为 0.01%的硬盘,其正常工作一年的概率为 99.99%,当某一数据中心中保有 10000 块,则在一年中不出现任何故障的概率为(1)%79.3601.0机械磨损、机械损伤都是硬盘驱动器发生故障的原因,这是无法避免的。并且随着磁盘数量的增加,整体故障的概率将会越来越大。由此可见,出现故障是家常便饭,因此我们需要一些方法来防止硬盘驱动器的故障导致的数据丢失。1987 年,美国加州大学伯克利分校的 Patterson、Gibson 和 Katz 等人发表了一篇名为冗余磁盘阵列(RAID)的一个示例的论文,第一次提出了 RAID 相关的概念。RAID技术 7,8将多块磁盘形

11、成一个整体,使之能够在硬盘故障的时候提供数据保护的技术。同时,RAID 技术也能提高存储系统的性能,因为多块硬盘驱动器可以同时进行 I/O 的服务。目前较为常见的 RAID 等级如下表 1 所示。其中 RAID-3、RAID-4 在技术上与 RAID-5 非常类似,因此现在已经不是很常见。表 1 RAID 级别简介级别 简要描述RAID 0 无容错性的分条阵列RAID 1 磁盘镜像RAID 1+0/RAID0+1 将 RAID 1 和 RAID 0 进行组合的应用RAID 3 带专用校验磁盘的并行访问分条阵列RAID 4 带独立磁盘访问和专用校验磁盘的分调阵列RAID 4 带独立磁盘访问和分布

12、式校验的分条阵列RAID 6 带独立磁盘访问和双重分布式校验的分条阵列RAID 技术在在线云存储中有很好的应用,保证了数据的一定意义上的稳定性。通过使用分条的技术,不同的 RAID 级别有不同的应用场景,其开销、读写性能也有所不同,在网上能搜到很多相关的资料,此处就不再一一赘述。唯一需要提及一点的是 RAID 技术的出现,使我们能够接受短时间内少量硬盘的故障,同时能通过热备磁盘进行自动的修复,也就实现了管理人员只需要坐在椅子上看着屏幕,哪里亮起了红点,就过去更换一块磁盘驱动器的美好愿景。在线云存储系统中的信息量级巨大,且同时会有多个用户访问,并无时不刻的需要保护数据可靠性,因此这种以信息为中心

13、的存储架构完全符合在线云存储的需要。另一方面,云计算和虚拟化的诞生也使共享资源的集中管理变为了可能。1.3 负载均衡和内容分发网络(CDN)百度网盘 4上有许多文件和众多的用户,所以百度不可能只有一个服务器,否则众多用户同时访问就会导致百度网盘崩溃了。因此在实现在线云存储的过程中必须部署多台服务器,因此我们必须考虑负载均衡以将请求分配到各台服务器。最早的云存储的负载均衡 9是利用本地的 DNS 实现的,为同一个主机名分配好几个映射,采用基本的调度算法,如轮询、随机分配的方式来分配请求。这种方式目前仍然被用在很多中小网站上,如 Bilibili 视频网站(因为它在崩溃信息上写明是通过哪个 DNS

14、 服务器定向到哪个服务器) ,但其也有一个很大的缺点,就是无法实现各个服务器的动态监测。如果其中一台服务器宕机,DNS 服务器是无法及时的发现,从而导致被分配到该服务器的用户出现访问失败的情况。同时,通过 DNS 进行负载均衡也不能即时的判断每个服务器的负载,如果调度算法不够完善,就可能会出现某个服务器几乎闲置而另一个服务器负载压力极高的情况。目前最流行的的负载均衡是采用反向代理。反向代理与正向代理类似,我们使用代理来访问“某些不能直接访问的网站” ,这样防火墙就无法鉴别我们究竟在访问什么网站,以达到间接访问的目的。而反向代理也类似,我们在访问一个部署了反向代理的网站时,访问的并不是正在的服务

15、器,而是反向代理服务器。当请求到达反向代理服务器时,反向代理再讲请求转发至服务器。目前通常的反向代理服务器都是以 Nginx 等服务器搭建,因为其具有众多的分配策略以保证平均分配访问的请求。反向代理其实类似于动态的 DNS 服务,但它可以做到 DNS 所无法做到的动态监测功能。同时,由于个人在线云存储往往被用户用来存储各种非结构化的大型数据,如电影、视频、照片等,而且当前主流的“网盘”都实现了各种在线预览的功能。如果在几年前,在线观看视频一直在缓冲、预览照片一直显示红叉,我们也不会怎么在意,但是在现在,我们一定会觉得这个网盘做的很渣,从而放弃使用,为了解决这个问题,就有了内容分发网络(CDN)

16、 。简单的来说 CDN 就是存储一些静态文件的一台或多台服务器,通过复制、缓存等方式,将文件保存其中。由于在线云存储中的文件通常都可以归为静态数据的范畴,因此CDN 的使用可谓是非常的对症下药。在没有 CDN 的年代,所有的数据都从主服务器中获取,如果服务器在北京,而我们在广州进行访问,由于传输距离、运营商、高并发等因素,访问的速度就会变慢。而使用了 CDN 服务后,将 CDN 服务器部署在各个不同的地理位置,并且 CDN 服务器会在用户第一次请求后缓存文件,或者是主动的从主服务器请求数据并进行缓存。从而当用户发送请求请求到达服务器时,服务器通过 IP、运营商等信息来判断用户的地理位置,并分配

17、离用户最近的 CND 服务器,以加快加载静态数据的速度。1.4 灾难恢复如果 RAID 技术在一定程度上能保证数据的安全性,那当数据中心发生地震、洪水或大规模断电的时候,RAID 技术也就无能为力了。为了应对这种灾难性的毁灭,必须要采取相应的对策以保护数据的安全性。备份是最主要的应对灾难恢复的需求。当主位置因灾难而不能工作的时候,备份的副本将用于在第二地点恢复数据。针对不同的信息可用性的要求,有不同的备份方案。早期人们使用磁带备份的方式,备份磁带介质被运往异地保存。然而这种方法有着较长的恢复点,这会造成灾难发生前一段时间的数据丢失,也就会造成“回档” 。在各类电子游戏中, “回档”是最受玩家们

18、深痛恶觉的事情,在在线云存储中亦然。用户可能把非常重要的数据修改后存放于“网盘”中,因此不能接受数据的丢失。目前采用的往往是远程复制技术来实时的将数据复制到灾难恢复位置,使得在遇到灾难时能以相对较短的时间恢复生产系统。远程复制 10分为同步模式和异步模式,并有基于主机的复制、基于阵列的远程复制、基于网络的远程复制等多种技术,读者可以自行查找相关资料以了解详细信息。同时由于在线云存储是基于云计算的服务,当灾难发生时,由于有多个 CDN 站点及多个备份服务器,用户甚至无法感知到灾难的发生,仅会感觉到下载或链接的速度变慢了而已。2 细节部分的技术实现2.1 数据去重、 “秒传”和具有中国特色的内容审

19、查以“百度云”为例,现在只要用户使用手机端、Pad 端进行登录,就能获得总计 2048GB的免费空间。而当前 2TB 的硬盘价格大约为 500-2000 元左右,这还不计算备份、RAID 的成本, “百度云”真的那么好心为每一个用户都准备了这么大的个人空间?答案必然是否定的。其实对于互联网上的数据,很多都是重复的。每个用户各自不同的文档数据,诸如名片、Word、 PPT 等的体积都很小,而占据了我们硬盘大多数空间的视频、电影、音乐等其实在别人的硬盘上也是同样的数据。因此可以采用类似于 C 语言中的指针的设计方式,每一个文件都只保存一个副本,使用多个链接指向这个副本。你保存了这个 2GB 的电影

20、、我保存了这个 2GB 的电影,其实在“百度云”上只保存了一份这个电影和两个链接而已。那应该如何判断用户上传的是不是同一个文件呢?笔者认为应该是采用摘要的方式,目前流行的摘要算法有 MD 系列和 SHA 系列,通过计算出的散列值是否相同来判断两个文件是否为同一个。然而这会遇到一个问题,便是当用户修改了文件名之后还应该算是原来的文件。本人就喜欢在下载完电影后按照本人的命名规则对文件进行重新命名和分类存储。本人认为解决改名问题的方法有将文件名都改为一个统一的名字再求散列值,或对文件的后半部分进行散列计算并比较文件大小以判断是否同一个文件。这个计算散列的过程可以在本地进行,当服务器发现用户上传的文件

21、在服务器中已经存在之后,所需要做的就只是在用户的在线云存储中建立一个到该文件的链接而已,从而省去了最耗时的上传步骤,因此就造成了一种“秒传”的现象。这也就能解释为什么再上传监控视频时需要大量的时间而上传一部电影就一下子上传完成的情况。同时,只保存一份副本的设计方式也能用于进行内容审查。当服务器检测到某些违法违规的内容时,只需要移除这份副本并删除所有链接即可。即使用户通过修改文件名、修改后缀名等操作也无法隐藏这些违法文件。现在的服务器都能做到自动化的检查压缩文件的内容,如 Google 就不允许用户发送可执行文件,即使是被压缩过的文件,因此就算把违法文件藏在压缩包中也是不可行的。2.2 加密存储

22、虽然用户仍会为了一些小奖品不惜在各种不靠谱的表格上填上自己的个人隐私信息,但是对于在线云存储这种提供“直白的”服务时,用户往往会要求保护自己的隐私!因此在国内常见的“网盘 ”中,都提供了类似于“ 保险箱”等名字的加密存储服务。在“ 百度云”的介绍页面上写道“ 百度云保险箱不仅需要用户验证自己的身份并需要提供额外的保险箱密码后才可以进行访问,无法进行分享,为您提供最安全和优质的文件保存服务。 ”加密的本质其实很简单,即将用户的个人秘钥与数据进行混合,储存混合后的结果,只有知道了用户的秘钥后才能将数据解密。这种方式看上去是很安全的,然而其理念却与上一小节所讲的不同副本、同一本体相矛盾,运营商会如何

23、取舍便是他们自己的考量了。也许你放在保险箱里的文件,在别的用户的“网盘”中就能轻易的访问到, “保险箱”功能 11也许只是一层纸箱子而已。当然,具体采用的策略都是运营商进行选择的,我们存在“百度云保险箱”里面的文件到底有没有加密、有没有进行安全的存储,那只有“百度云”自己知道了。2.3 区别对待不同数据在理想情况下,我们使用的所有的硬盘都是最好的,速度都是最快的,用户们的所有数据都能飞速的读取和下载,大家感觉都非常好。然而,在线云存储从根本上来说是商业上的应用,不同的数据具有不同的商业价值,将所有的数据都进行同等的最优对待在成本上都是不被允许的。对于数据价值 12很大的数据应该提供最好的磁盘驱

24、动器和最快的访问速度,而对于价值较小的数据可能只提供最基本的服务。这应该说是目前主流厂商所采用的方法,举例来说当从“云盘”下载一部热门电影时,速度可能达到物理带宽的上限,而当我从我的网盘下载自己的小作文时,速度仅仅为 40KB/s。判断一个文件的热门程度,下载量的多少应该可以作为衡量的标准之一。运营商根据成本的不同准备多套速度、性能不同的存储系统,在下文中笔者将用等级来将其区分,等级越高,质量越好。当用户上传一个文件时、先可以根据文件名或其他因素进行预判段,若觉得该文件可能有较大的价值,则将该文件存放于高等级存储中,反之亦然。随着时间的推移,下载量会发生变化,流行的资源会变得不再流行,而新的流

25、行资源又会不断出现,所以应定时的对数据的价值进行重新的判断,并将其移动到等值的存储服务器上,而当某些数据很久都没有被访问时,则移动到归档服务器保存。同时,当高级存储器进行版本迭代的时候,淘汰下来的前高级存储器可以降低等级,转而作为低等级存储来使用,以降低营业的成本。3 数据去重的测试与性能评价本文中基于 FastDFS 文件服务器开发了云存储系统,采用了数据去重和文件秒传机制。通过基于 9 个周期的文件数据测试,如图 2 所示。图 2 文件去重前后数据总量根据上图可以得出,随着时间的推移,用户上传的数据总量的增长速度远高于经过文件去重后的实际存储数据量的增长速度,而经过文件去重的实际存储数据量

26、一直保持较低的增长速度。可见预见的是,文件去重技术的应用,可以极大的缓解文件服务器的压力,能够带来较为可观的经济效益。另外,本文中也对上述测试结果的去重率进行了分析,记用户上传文件数据总量为 T,实际存储数据量为 R,去重率 的计算公式如下:(2) %10T根据公式 2 以及文件去重前后数据总量的测试结果,绘制了相应的文件去重率的折线图。研究随着文件数据量的增长,去重率的变化情况如图 3 所示:图 3 系统去重率由图 3 可知:前两个星期由于文件库中的文件较少,系统的去重率很低,不足 3%。但是随着时间的推移,用户上传文件的增长,系统的文件去重率也随之增加,最后一个星期的时候,系统的去重率已经

27、可以达到很可观的 43%。可以预测的是,随着用户上传的文件数据总量的进一步增加,文件去重的效果会越来越明显。由于存储容量增长,云存储成本增加。参考阿里云的存储空间的计价标准,在本文测试的存储容量范围内用户每年需要最多需支付 244 元的基本存储费用,而经过去重的实际存储成本只有 145 元。图中经过去重后的云存储成本增长的速度远小于未经去重的存储成本,当存储容量持续增长去重前后的成本差距将会越来越大。本节主要对云存储系统的文件去重方面进行了测试和性能评价。在尽量去除干扰因素的前提下,采用了较大规模的文件数据作为数据集进行数据去重功能的效果分析。最后,通过结合阿里云的计价标准计算了采用该策略前后

28、系统的存储变化以及成本变化情况。测试结果表明在较大规模数据量的情况下,采用本策略能够较为有效的节省存储成本。因此通过本测试,可以得出本策略在文件具有相关性的情况下,针对大规模数据存储,能够获得比较好的性能,对用户云存储开支有了很大的节省。4 在线云存储的未来发展方向和盈利模式在 1 2 年前,国内各大个人在线云存储所采用的盈利模式主要是提升空间,提升 15g,半年 30 元,提升 50g,半年 90 元;比购买一个硬盘还贵,用户消费的动力仅仅在于保存在云存储上的数据不会像传统硬盘那样很容易就发生损坏。目前这种传统的盈利方式已经开始逐渐的没落了,各类”网盘”动辄 3 4T 的免费空间对于普通的用

29、户来说完全绰绰有余。因此各提供商必须想出其他的盈利模式 13-15,观察了现有的各大云盘所采用的收费手段,本人认为当前的盈利模式主要向两个方向发展:速率和 C2C。首先来说速率,速率收费在传统下载行业可谓是最常见的。目前一线城市的下行网速普遍已经超过了 10M 甚至达到了 100M,而过去直接从服务器点对点下载的速度已经无法达到物理带宽的上限。因此可以通过收费的方式让用户借助自身的 CDN 节点缓存进行更快速度的下载。但由于各类在线云存储推广的初期,很多云服务提供商都将这项服务免费的提供给了用户,而现在说要收费的话,可能会造成用户的不满和流失。C2C 模式 16,即用户对用户,最显著的例子可谓

30、是“百度文库”这一个应用。通过上传文件,用户可以得到被称作下载分的积分,而当用户需要进行下载的时候,则需要支付下载分来进行下载。对于那些不愿意上传自己资源的用户也有相应的解决方案,那就是付钱。通过这种模式付费的用户完全不会有怨言,因为已经提供了免费下载的方式,只是自己不想那么做而已,所以这个钱交的心甘情愿。其他的盈利模式可能是通过提供一些额外的基于提供在线文本编辑、在线播放视频等并不属于传统存储服务的功能,此处就不在赘述了。本人认为在个人线云存储发展的方向会更倾向于 C2C 和更优质的服务模式 17,诸如流畅的在线预览功能和强大的在线编辑功能,同时提供更加优秀的搜索、资源推荐等功能,并向社交网

31、络的方向进行发展,成为一整套的生态系统 18而不再是文件存储这样单一的一项基础服务。参考文献:1 李晓松. Dropbox:怎样平步“云端 ”?J. 中外管理, 2014, 01:28-29.2 本报记者汤浔芳. 对标 Dropbox 云存储中国酣战N. 21 世纪经济报道, 2012-02-27026.3 戴元顺. 云计算技术简述J. 信息通信技术, 2010, 02:29-35.4 李新宇. 网络云盘介绍以 360 云盘和百度云为例J. 无线互联科技, 2014,01:38.5 国内个人云存储应用风生水起J. 通讯世界, 2012, 08:46-47.6 张杨. 一种个人云存储服务系统的设

32、计与实现D.电子科技大学 , 2012.7 陈华英. 磁盘阵列 RAID 可靠性分析J. 电子科技大学学报, 2006, 03:403-405.8 曹阳. RAID 技术实现及发展J. 电脑学习, 2006, 04:43-44+60.9 拓守恒. 云计算与云数据存储技术研究J. 电脑开发与应用, 2010, 09:1-3+9.10 李凌. 云计算服务中数据安全的若干问题研究D. 中国科学技术大学 , 2013.11 王德政, 申山宏, 周宁宁. 云计算环境下的数据存储J. 计算机技术与发展, 2011, 04:81-84+89.12 唐箭. 云存储系统的分析与应用研究J. 电脑知识与技术, 2

33、009, 20:5337-5338+5340.13 贺博,王欣. 个人云存储市场发展状况分析J. 现代电信科技, 2012, 08:11-14+19.14 周可,王桦,李春花. 云存储技术及其应用J. 中兴通讯技术, 2010, 04:24-27.15 王佳隽, 吕智慧, 吴杰, 钟亦平. 云计算技术发展分析及其应用探讨J. 计算机工程与设计, 2010, 20:4404-4409.16 刘贝, 汤斌. 云存储原理及发展趋势J. 科技信息, 2011, 05:470-471.17 本报记者李旭阳. 云存储如何盈利?N. 计算机世界,2013-04-29T06.18 周文君. 个人云存储服务如何盈利?N. 人民邮电, 2013-11-11008.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。