分布式存储系统可靠性:系统量化估算、引言我们常常听到衡量分布式存储系统好坏的两个指标:可用性和可靠性指标。可用性指的是系统服务的可用性。一般按全年可用时间除以全年时间来衡量可用性的好坏,平常我们说的SLA指标就是可用性指标,这里就不展开细说。可靠性指标指的是数据的可靠性。我们常说的数据可靠性11个9,在对象存储中就意味着存储一千亿个对象大概会有1个文件是不可读的。由此可见,数据可靠性指标给分布式存储系统带来的挑战不言而喻。本文就重点来分析一下分布式系统的数据可靠性的量化模型。数据的重要性不必多说,基本上数据可以称得上是企业生命力的核心,是企业赖以生存的根本。因此数据的可靠性是基础的基础,任何数据的丢失都会给企业造成无法计算和弥补的损失。随着数据规模的日益增大,环境更加复杂,我们大体可以把威协数据可靠性的因素归为几大类:硬件故障:主要是磁盘故障、还有网络故障、月服务器故障、IDC故障;软件隐患:内核BUG,软件设计上的BUG等;运维故障:人为误操作。其中,第1类的硬件故障中又以磁盘故障最为频繁,坏盘对于从事分布式存储