1、 厦门大学计算机科学系研究生课程 大数据技术原理与应用 上机练习 熟悉常用的 HDFS操作 主讲教师:林子雨 厦门大学数据库实验室 二零一 五 年九月 目录 目录 1 作业题目 . 1 2 作业目的 . 1 3 作业性质 . 1 4 作业考核方法 . 1 5 作业提交日期与方式 . 1 6 实验平台 . 1 7 实验内容和要求 . 1 8 实验报告 . 2 附录 1:任课教师介绍 . 2 附录 2:课程教材介绍 . 2 厦门大学计算机科学系研究生课程 大数据技术基础 上机练习 大数据技术原理与应用 主讲教师:林子雨 http:/ 第 1 页 大数据技术原理与应用 熟悉常用的 HDFS操作 上机
2、练习 说明 主讲教师:林子雨 E-mail: 个人主页: http:/ 1 作业题目 熟悉常用的 HDFS 操作 。 2 作业目的 ( 1) 理解 HDFS 在 Hadoop 体系结构中的角色; ( 2) 熟练使用 HDFS 操作常用的 Shell 命令; ( 3) 熟悉 HDFS 操作常用的 Java API。 3 作业性质 课后作业,必做,作为课堂平时成绩。 4 作业考核方法 提交上机实验报告 ,任课老师根据上机实验报告评定成绩。 5 作业提交日期与方式 林子雨编著大数据技术原理与应用教材第 三 章 分布式文件系统 HDFS 内容结束 后的下一周周六晚上 9 点之前提交。 6 实验平台
3、操作系统: Linux Hadoop 版本: 1.2.1 或以上版本 JDK版本: 1.6 或以上版本 Java IDE: Eclipse 7 实验内容和要求 首先, 编程实现 以下 指定功能,并利用 Hadoop 提供的 Shell 命令完成相同任务 : ( 1) 向 HDFS 中上传任意文本文件,如果指定的文件在 HDFS 中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件; ( 2) 从 HDFS 中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名; ( 3) 将 HDFS 中指定文件的内容输出到终端 中; ( 4) 显示 HDFS 中指定的文件的读写
4、权限、大小、创建时间、路径等信息; 厦门大学计算机科学系研究生课程 大数据技术基础 上机练习 大数据技术原理与应用 主讲教师:林子雨 http:/ 第 2 页 ( 5) 给定 HDFS 中某一个目录,输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息,如果该文件是目录,则递归输出该目录下所有文件相关信息 ; ( 6) 提供一个 HDFS 内的文件的路径,对该文件进行创建和删除操作。如果文件所在目录不存在,则自动创建目录 ; ( 7) 提供一个 HDFS 的目录的路径,对该目录进行创建和删除操作。创建目录时,如果目录文件所在目录不存在则自动创建相应目录;删除目录时,由用户指定当该目录不
5、为空时是否还删除该目录 ; ( 8) 向 HDFS 中指定的文件追加内容,由用户指定内容追加到原有文件的开头或结尾; ( 9) 删除 HDFS 中指定的文件; ( 10) 删除 HDFS 中指定的目录,由用户指定目录中如果存在文件时是否删除目录; ( 11) 在 HDFS 中,将文件从源路径移动到目的路径。 其次, 编 程 实 现 一 个 类 “ MyFSDataInputStream ” , 该 类 继 承“ org.apache.hadoop.fs.FSDataInputStream” ,要求如下: ( 1) 实现按行读取 HDFS 中指定文件的方法 “ readLine()” ,如果读到
6、文件末尾,则返回空,否则返回文件一行的文本。 ( 2) 实现缓存功能,即利 用 “ MyFSDataInputStream” 读取 若干 字节数据时,首先查找缓存,如果缓存中有所需数据,则直接 由 缓存提供,否则向 HDFS 读取数据。 查看 Java 帮助手册或其它资料,用 “ .URL” 和“ org.apache.hadoop.fs.FsURLStreamHandlerFactory” 编程完成输出 HDFS 中指定文件的文本到终端中。 8 实验报告 厦门大学计算机系研究生课程 大数据技术原理与应用 实验报告 题目: 姓名 日期 实验环境: 实验内容与完成情况: 出现的问题: 解决方案
7、(列出遇到的问题和解决办法,列出没有解决的问题): 附录 1:任课教师介绍 林子雨 (1978 ),男 ,博士 ,厦门大学计算机科学系助理教授 ,主要研究领域为数据库 ,实时主动数据仓库 ,数据挖掘 . 主讲课程: 大数据技术基础 办公地点:厦门大学海韵园科研 2 号楼 E-mail: 个人 主 页: http:/ 数据库实验室网站: http:/ 附录 2:课程教材介绍 厦门大学计算机科学系研究生课程 大数据技术基础 上机练习 大数据技术原理与应用 主讲教师:林子雨 http:/ 第 3 页 大数据技术原理与应 用 概念、存储、处理、分析与应用,由厦门大学计算机科学系 教师 林子雨博士编著
8、,是中国高校第一本系统介绍大数据知识的专业教材。 本书定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带 ,以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为读者在大数据领域“深耕细作”奠定基础、指明方向。 全书共有 13 章,系统地论述了大数据的基本概念、大数据处理架构 Hadoop、分布式文件系统 HDFS、分布式数据 库 HBase、 NoSQL 数据库、云数据库、分布式并行编程模型MapReduce、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。在 Hadoop、 HDFS、 HBase 和 MapReduce 等重要章节,安排了入门级的实践操作,让读者更好地学习和掌握大数据关键技术。 本书可以作为高等院校计算机专业、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考、学习、培训之用 。 欢迎访问大数据技术原理与应用 概念、存储、处理、分析与应用教材官方网站:http:/ 扫一扫访问教材官网