Hadoop入门及讲解.ppt

上传人:gs****r 文档编号:4800269 上传时间:2020-04-27 格式:PPT 页数:24 大小:915.50KB
下载 相关 举报
Hadoop入门及讲解.ppt_第1页
第1页 / 共24页
Hadoop入门及讲解.ppt_第2页
第2页 / 共24页
Hadoop入门及讲解.ppt_第3页
第3页 / 共24页
Hadoop入门及讲解.ppt_第4页
第4页 / 共24页
Hadoop入门及讲解.ppt_第5页
第5页 / 共24页
点击查看更多>>
资源描述

Hadoop基础入门,1,Hadoop产生背景,2,Hadoop构成,3,4,Hadoop伪分布式环境搭建,Hadoop使用场景,1,Hadoop产生背景,Hadoop之前无法解决的问题,单机无法计算海量数据,Nutch索引和存储无法实现,关系型数据库无法统计大量数据,数据太大性能与效率低下,3个500G的文件中找出重复出现或不重复的行,100亿条信息中统计TOP10热点新闻,Nutch是搜索引擎,需要存储海量数据,查询需要建立大量索引以提高速度,有100T的网站日志,计算PV,UV,IP,Hadoop最早起源于Nutch。Nutch是一个开源的网络搜索引擎,由DougCutting于2002年创建。,Hadoop的前身:Nutch搜索引擎,Nutch,Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。,Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题,即不能解决数十亿网页的存储和索引问题。,Nutch存在的问题,Hadoop的由来,2

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。