Hadoop分布式文件系统:架构和设计前提和设计目标o硬件错误o流式数据访问o大规模数据集o简单的一致性模型o“移动计算比移动数据更划算”o异构软硬件平台间的可移植性Namenode和Datanode文件系统的名字空间(namespace)数据复制o副本存放:最最开始的一步o副本选择o安全模式文件系统元数据的持久化通讯协议健壮性o磁盘数据错误,心跳检测和重新复制o集群均衡o数据完整性o元数据磁盘错误o快照数据组织o数据块oStagingo流水线复制可访问性oDFSShelloDFSAdmino浏览器接口 存储空间回收o文件的删除和恢复o减少副本系数 参考资料引言Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常