1、大华云存储技术白皮书云计算产品线2014 年 7 月目录目录 .2第一章 概述 .41. 背景 .42. 设计思想 .43. 系统架构 .5第二章 关键技术 .71. 负载自动均衡技术 .72. 高速并发访问技术 .73. 高可靠性保证技术 .84. 高可用技术 .8第三章 分布式文件系统设计 .81. 数据存储功能 .92. 海量存储能力 .103. 统一命名空间管理 .104. 节点间数据冗余 .115. 数据恢复机制 .126. 元数据管理的高可用性保障 .137. 存储服务的高可用性保障 .148. 动态负载均衡 .149. 在线扩容 .1510. 磁盘热插拔和漂移 .1511. 高速
2、并发访问 .15第四章 客户端接口设计 .161. 基础 SDK.162. 流媒体 SDK(可扩展) .173. RESTFUL 接口 (可扩展) .174. POSIX 接口 (可扩展) .175. NFS/CIFS 接口( 可扩展) .18第五章 运维管理系统设计 .191. 设备管理 .192. 系统监控 .193. 系统维护 .204. 告警日志 .215. 故障处理 .22第一章 概述1. 背景随着平安城市建设的升级,智慧城市建设的兴起,视频监控高清化开始普及,视频图像信息的深度应用成为行业的趋势,如何有效存储和高效使用海量监控数据成为了新的课题。传统大型监控系统主要采用以下两种模式
3、来实现数据存储与使用:存储服务器+IPSAN ;NVR 为代表的嵌入式存储设备。这两种方式都存在扩展困难,可靠性低,数据无法充分共享等弱点。针对这些问题,有必要将 IT 云存储技术引入到监控领域。云存储解决方案采用全新的设计理念,可从成本、容量、空间可扩展性、服务可用性、数据可靠性、接口通用性等多个维度提升监控存储的质量。由于这些明显的优势,云存储将成为未来平安城市、智慧城市系统的基石,有效的支持原始视频存储、卡口图片存储,视频图像信息库等数据集中存储与共享业务,以及智能实战系统,警务政务综合系统,大型数据挖掘系统等数据分析业务,成为便捷、统一管理和高效应用的大数据基础平台。2. 设计思想大华
4、云存储解决方案采用业界领先的云存储架构思想,在系统架构和设计上,充分考虑大规模集群环境下软硬件发生故障的现实,采用先进的管理思想和软件系统,实现对大量普通存储服务器存储空间资源进行虚拟化整合,实现软硬件故障高度容错,搭建高度稳定可靠的存储集群。系统将控制流与数据流分离,以及充分优化元数据节点控制系统,使得系统具备极高的性能和良好的线性扩展能力。系统整体为应用提供统一命名空间,使得系统具备极好的数据共享能力。系统将负载均衡到集群内的各节点上,充分利用集群各节点性能,以获得很好的性能聚合能力以及保证了系统的稳定。集群采用高度灵活自组网技术,提供简易部署和维护功能。系统在数据可靠方面,采用智能冗余重
5、建技术,保证较高磁盘利用率的前提下,提供最佳冗余策略。另外,系统在节点软硬件故障容错方面,也进行充分考虑,具备屏蔽所有可屏蔽错误能力。3. 系统架构在本次系统建设中,云存储系统属于基础平台支撑层,以用于数据集中存储和共享,实现对数据的统一管理和高效应用。将数据逻辑集中物理分散,以提供多并发高吞吐带宽,最大程度降低系统访问瓶颈。云存储系统采用分布式的存储机制,将数据分散存储在多台独立的存储服务器上。它采用包括元数据管理服务器(Metadata Server) 、数据存储节点服务器(Data Node)和客户端以及运维管理服务器的结构构成海量云存储系统。在每个服务器节点上运行云存储系统的相应软件服
6、务程序模块。云存储系统从功能上划份为三大部分:1) 分布式文件系统分布式文件系统实现文件数据存储、可靠性容错、可伸缩性保证、高可用保证、负载均衡和流量分担等功能。2) 存储访问接口提供高性能专用的 API 接口,支持云业务应用层程序对云存储系统的高性能直接访问。3) 运维管理平台运维管理平台提供设备管理、系统监控、告警管理、故障管理等功能。系统架构框图如下图所示。元数据服务器集群智能存储服务器集群千兆/ 万兆以太网/InfiniBand支持文件 存储云 业 务 大于1024 个客户端并发 访问海量文件快速定位与检索云 存 储其中,元数据服务器集群保存系统的元数据,负责对整个文件系统的管理,Me
7、tadata Server 在逻辑上只有一个,但采用主备双机热备集群方式,保证系统的不间断服务;智能存储服务器(Data Node)负责具体的数据存储工作,数据以文件的形式存储在 Data Node 上,Data Node 的个数可以有多个,它的数目直接决定了云存储系统的规模;客户端对外提供数据存储和访问服务的接口,为云业务平台提供云存储系统的访问能力。整个方案的软件架构图如下: 系统包含四个层次功能,来满足最终用户、系统管理员、运营人员的日常操作需求: 资源层:基于单个存储节点,管理本地的硬盘,文件和数据块。 硬盘热插拔:管理节点内的硬盘动态增加和删除,和存储管理层同步硬盘内的文件信息。 硬
8、盘漂移:当节点故障时,支持把节点上的硬盘取下来放到新的存储设备上,快速恢复数据。 本地文件系统:对操作系统自带的本地文件系统进行调优,作为数据存储的基础。 对象数据块管理:对象存储到节点后,会形成多个数据块。 管理层:提供单个集群和多域的管理能力 节点管理:管理多个存储节点,支持节点上下线,搜集节点信息。 负载均衡:根据节点的CPU,网络,磁盘的负载情况,动态选择负载最轻的节点参与工作。 高可用HA:对两台元数据进行数据同步,在一台发生故障时快速进行主备切换。 对象管理:响应客户端的对象操作请求,为对象分配合适的存储节点,提供唯一ID。 统一目录:提供文件对象的目录视图,支持文件路径和按范围查
9、询。 运维管理:提供运维Web服务,支持设备动态添加删除,文件手动恢复,系统升级等。 多域管理:通过索引对多个云存储系统统一管理,提供全域唯一文件路径。 接入层:提供丰富的访问接口,适应各种应用 基础SDK:通过SDK可以直接访问云存储系统,进行基本文件操作。 流媒体SDK:基于基础SDK封装,支持流媒体写入并建立帧索引,按时间段定位和读取。 POSIX驱动:基于基础SDK封装,提供Windows/Linux驱动,将云存储模拟成本地硬盘。 NFS/CIFS网关:通过服务器,提供网络文件系统服务。 WebService:通过Web服务器,提供文件Web服务,并提供RESTful的接口形式。 应用
10、&服务层:业务应用层部署由各用户根据自身需求,充分利用接口层提供的各种接口,开发而成的监控系统,联网共享系统等。第二章 关键技术负载自动均衡技术采用中心服务器模式来管理整个云存储文件系统,所有元数据均保存在元数据服务器上,文件则被按块划分存储在不同的数据节点上。元数据维护了统一的命名空间,同时掌握整个系统内数据节点的使用情况,当客户端向元数据服务器发送数据读写的请求时,元数据服务器根据数据节点的磁盘使用情况、网络负担等情况,选择负担最轻的节点服务器对外提供服务,自动调节集群的负载状态。数据节点内同时有提供磁盘级的负载均衡,根据磁盘的 IO 负载,空间容量等情况,自动选择负载最轻的磁盘存储新的数
11、据文件。当有一个数据节点因为机器故障或者其他原因造成离线时,元数据服务器会将此机器自动屏蔽掉,不再将此数据节点提供给客户端使用,同时存储在此数据节点上的数据也会自动恢复到其他可用的节点服务器上,自动屏蔽数据单节点故障对系统的影响。另外对故障的数据节点上的数据快速恢复,只需将数据节点上的硬盘拔出,插入到其他数据节点,这样即减少集群对数据恢复的压力,又不对客户端读写产生影响。2. 高速并发访问技术客户端在访问云存储时,首先访问元数据服务器,获取将要与之进行交互的数据节点信息,然后直接访问这些数据节点完成数据存取。客户端与元数据服务器之间只有控制流,而无数据流,这样就极大地降低了元数据服务器的负载,
12、使之不成为系统性能的一个瓶颈。客户端与数据节点之间直接传输数据流,同时由于文件被分成多个节点进行分布式存储,客户端可以同时访问多个节点服务器,从而使得整个系统的 I/O 高度并行,系统整体性能得到提高。通常情况下,系统的整体吞吐率与节点服务器的数量呈正比。3. 高可靠性保证技术对于元数据,通过操作日志来提供容错功能。主服务器本地 SSD 盘组建高可靠 RAID1,提供高可靠容错能力。当元数据服务器发生故障时,在磁盘数据保存完好的情况下,可以迅速恢复以上元数据。且操作日志在主备元数据服务器之间实时同步,实现更高程度的可靠性。对于节点服务器,采用 Erasure Code 冗余方式实现容错,数据冗
13、余分布存储在不同的数据节点上。任一数据节点的损坏,不会导致任何数据丢失,不会影响任何的数据访问和写入过程。之后,通过灵活数据恢复机制,进行数据重建过程。4. 高可用技术系统中的所有服务节点均是通过网络连接在一起,由于采用了高可靠的容错机制,系统增减节点不必停止服务,可在线增减存储节点。元数据服务器采用主备双机热备技术,主机故障,备机自动接替其工作,对外服务不停止;存储节点采用 Erasure code 冗余备份机制,如采用 4+1 节点间冗余容错,任意损失一个节点,数据不丢失,服务不停止,客户端无感知。第三章 分布式文件系统设计分布式文件系统是整个大华云存储系统的核心,提供了数据存储业务的所有
14、功能。本文件系统借鉴众多现有分布式文件系统设计理念和思想,结合视频监控业务特点,提供了众多功能,包括:文件数据存储与访问功能;利用分布式技术将众多存储设备集群化成一个存储资源池,实现海量数据存储能力;分布式文件系统管理整个存储资源池,构建成一个统一的命名空间;系统提供高可靠、高存储空间利用率的数据冗余策略,保证数据的可靠性;提供灵活、非常适用于视频监控业务的数据恢复机制;利用高可靠主备技术,保证元数据管理服务的高可用性;利用节点间的失败检测与恢复机制,实现存储节点的高可用性;动态负载均衡技术保证整个系统负载均衡,规避数据热点和单存储设备性能瓶颈;通过在线动态增加或删除节点功能,保证存储系统建设
15、的灵活性,以及业务的持续性。分布式文件系统包括元数据管理、块数据管理服务。元数据是指文件的名称、属性、数据块位置信息等,元数据管理通过元数据服务程序完成。因元数据访问频繁,故系统将元数据加载缓存至内存中管理,提高访问效率。由于元数据的重要性,元数据损坏或丢失则相当于文件数据丢失,因此实现了元数据服务器主备双机热备,保证高可用,确保小时不间断服务。块数据是指文件数据被按照一定大小(默认 64MB)分割而成的多个数据块,分布存储到不同的存储节点服务器上,并通过编解码容错算法产生相应的冗余块。存储服务是运行在每个存储节点服务器上的存储服务程序,负责使用存储服务器上的磁盘空间存储文件数据块,并实现相应
16、的编解码功能以及保证磁盘间的负载均衡等。相比较传统业界的云存储采用块数据简单备份冗余容错机制,存储节点间容错方式大大降低了硬件资源冗余度,提高了磁盘利用率。文件系统采用非对称分布式存储架构,控制流与数据流分离,可通过增加存储节点实现系统的线性扩容。该系统架构实现了统一调度,负载均衡和流量自动分担功能,多个存储节点同时对外提供数据流服务,系统根据磁盘空间使用比例进行资源优化配置。分布式文件系统具有灵活冗余重建功能,确保单节点的损坏不会影响到数据的可读性。1. 数据存储功能数据存储功能是指分布式文件系统提供的,类似单机文件系统所具备的,创建文件、写入数据、关闭文件、打开文件、读取数据、删除文件、文件内定位、获取文件属性等功能。这些功能都是文件系统所必须具备的基本功能,但对于云存储系统而言,也会有一些新的特点。本系统提供的是类对象存储功能,提供两大类操作,Bucket 操作和文件对象操作。
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。