1、 大数据技术原理与应用 厦门大学计算机科学系 林子雨 厦门大学计算机科学系 2016年版林子雨厦门大学计算机科学系E-mail: 主页: http:/ 基于 Hadoop的数据仓库 Hive( PPT版本号: 2016年 4月 6日版本) 大数据技术原理与应用http:/ PPT的厦大校徽和底部文字 大数据技术原理与应用 厦门大学计算机科学系 林子雨 课堂内容与教材对应关系说明厦门大学林子雨编著 大数据技术原理与应用 2015年 8月 1日人民邮电出版社出版发行第 1版 教材共包含 13章内容第一章 大数据概述第二章 大数据处理架构 Hadoop第三章 分布式文件系统 HDFS第四章 分布式数
2、据库 HBase第五章 NoSQL数据库第六章 云数据库第七章 MapReduce第八章 流计算第九章 图计算第十章 数据可视化第十一章 大数据在互联网领域的应用第十二章 大数据在生物医学领域的应用(自学)第十三章 大数据的其他应用(自学)2016年新增章节(将加入到第 2版教材中)第 14章基于 Hadoop的数据仓库 Hive第 15章 Hadoop架构再探讨第 16章 Spark 大数据技术原理与应用 厦门大学计算机科学系 林子雨 课堂内容与教材对应关系说明课堂章节 对应的 大数据技术原理与应用 (第 1版)教材 章节第 1讲 -大数据概述 第 1章 -大数据概述第 2讲 -大数据处理架
3、构 Hadoop 第 2章 -大数据处理架构 Hadoop第 3讲 -分布式文件系统 HDFS 第 3章 -分布式文件系统 HDFS第 4讲 -分布式数据库 HBase 第 4章 -分布式数据库 HBase第 5讲 -NoSQL数据库 第 5章 -NoSQL数据库第 6讲 -云数据库 第 6章 -云数据库第 7讲 -MapReduce 第 7章 -MapReduce第 8讲 -基于 Hadoop的数据仓库 Hive 新增第 14章,不在当前第 1版教材 中,将放 入第 2版 教材第 9讲 -Hadoop架构再探讨 新增第 15章,不在当前第 1版教材中,将放入第 2版教材第 10讲 -流计算
4、第 8章 -流计算第 11讲 -Spark 新增第 16章,不在当前第 1版教材中,将放入第 2版教材第 12讲 -图计算 第 9章 -图计算第 13讲 -数据可视化 第 10章 -数据可视化第 14讲 -大数据在互联网领域的应用 第 11章 -大数据在互联网领域的应用备注:教材的第 12章大数据在生物医学领域的应用和第 13章大数据在其他领域的应用,为自学章节,不录制视频 大数据技术原理与应用 厦门大学计算机科学系 林子雨 厦门大学计算机科学系 2016年版林子雨厦门大学计算机科学系E-mail: 主页: http:/ 基于 Hadoop的数据仓库 Hive(第 1版教材出版后的 2016年
5、新增章节) 大数据技术原理与应用http:/ PPT的厦大校徽和底部文字( PPT版本号: 2016年 4月 6日版本) 大数据技术原理与应用 厦门大学计算机科学系 林子雨 中国高校大数据课程公共服务平台http:/ “厦门大学数据库实验室 ”访问平台主页课程教材讲义 PPT学习指南免费提供备课指南上机习题授课视频技术资料全方位、一站式服务 大数据技术原理与应用 厦门大学计算机科学系 林子雨 提纲 14.1 概述 14.2 Hive系统架构 14.3 Hive工作原理 14.4 Hive HA基本原理 14.5 Impala 14.6 Hive编程实践欢迎访问 大数据技术原理与应用 教材官方网
6、站:http:/ “中国高校大数据课程公共服务平台 ”旗下子栏目 “大数据课程学生服务站 ”,为学生学习大数据课程提供全方位、一站式免费服务:http:/ PPT是如下教材的配套讲义:21世纪高等教育计算机规划教材 大数据技术原理与应用 概念、存储、处理、分析与应用 ( 2015年 8月第 1版)厦门大学 林子雨 编著,人民邮电出版社ISBN:978-7-115-39287-9 大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.1 概述 14.1.1 数据仓库概念 14.1.2 传统数据仓库面临的挑战 14.1.3 Hive简介 14.1.4 Hive与 Hadoop生态系统中其他组件
7、的关系 14.1.5 Hive与传统数据库的对比分析 14.1.6 Hive在企业中的部署和应用 大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.1.1 数据仓库概念数据仓库( Data Warehouse)是一个面向主题的( Subject Oriented)、集成的( Integrated)、相对稳定的( Non-Volatile)、反映历史变化( Time Variant)的数据集合,用于支持管理决策。图 14-1 数据仓库的体系结构 大数据技术原理与应用 厦门大学计算机科学系 林子雨 ( 1)无法满足快速增长的海量数据存储需求 ( 2)无法有效处理不同类型的数据 ( 3)
8、计算和处理能力不足14.1.2 传统数据仓库面临的挑战 大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.1.3 Hive简介Hive是一个构建于 Hadoop顶层的数据仓库工具支持大规模数据存储、分析,具有良好的可扩展性某种程度上可以看作是用户编程接口,本身不存储和处理数据依赖分布式文件系统 HDFS存储数据依赖 分布式并行计算模型 MapReduce处理数据定义了简单的类似 SQL 的查询语言 HiveQL用户可以通过编写的 HiveQL语句运行 MapReduce任务可以很容易把原来构建在关系数据库上的数据仓库应用程序移植到Hadoop平台上是一个可以提供有效、合理、直观组织和使用数据的分析工具