大数据基础课程设计报告(共26页).docx

上传人:晟*** 文档编号:10024859 上传时间:2021-12-31 格式:DOCX 页数:25 大小:1.05MB
下载 相关 举报
大数据基础课程设计报告(共26页).docx_第1页
第1页 / 共25页
大数据基础课程设计报告(共26页).docx_第2页
第2页 / 共25页
大数据基础课程设计报告(共26页).docx_第3页
第3页 / 共25页
大数据基础课程设计报告(共26页).docx_第4页
第4页 / 共25页
大数据基础课程设计报告(共26页).docx_第5页
第5页 / 共25页
点击查看更多>>
资源描述

精选优质文档-倾情为你奉上大数据基础课程设计报告一、项目简介: 使用hadoop中的hive、mapreduce以及HBASE对网上的一个搜狗五百万的数进行了一个比较实际的数据分析。搜狗五百万数据,是经过处理后的搜狗搜索引擎生产数据,具有真实性,大数据性,能够较好的满足分布式计算应用开发课程设计的数据要求。 搜狗数据的数据格式为:访问时间t 用户 IDt查询词t 该 URL 在返回结果中的排名t 用户点击的顺序号t 用户点击的 URL。其中,用户 ID 是根据用户使用浏览器访问搜索引擎时的 Cookie 信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户 ID。二、操作要求1.将原始数据加载到HDFS平台。 2.将原始数据中的时间字段拆分并拼接,添加年、月、日、小时字段。 3.将处理后的数据加载到HDFS平台。 4.以下操作分别通过MR和Hive实现。l 查询总条数l 非空查询条数l 无重复总条数l 独立UID总数l 查询频度排名(频度最高的前50词)l 查询次数大于

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 公文范文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。