第二章:大数据技术基础 大 数 据 分 析 及 应 用 实 践 大数据分析及应用实践 目录 CONTENTS 2.1基础架构支持 2.2云计算 2.3数据采集 2.4数据存储1.基础架构支持大数据分析及应用实践 2.1.1 Hadoop Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构 Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中 Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力 几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都 支持Hadoop大数据分析及应用实践 2.1.1 Hadoop 经过多年的发展,Hadoop项目不断完善和成熟,目前已经包含多个子项目(如下图2-2所示) 除了核心的HDFS和MapReduce以外,Hadoop项目还包括Co