Hadoop基础入门,1,Hadoop产生背景,2,Hadoop构成,3,4,Hadoop伪分布式环境搭建,Hadoop使用场景,1,Hadoop产生背景,Hadoop之前无法解决的问题,单机无法计算海量数据,Nutch索引和存储无法实现,关系型数据库无法统计大量数据,数据太大性能与效率低下,3个500G的文件中找出重复出现或不重复的行,100亿条信息中统计TOP10热点新闻,Nutch是搜索引擎,需要存储海量数据,查询需要建立大量索引以提高速度,有100T的网站日志,计算PV,UV,IP,Hadoop最早起源于Nutch。Nutch是一个开源的网络搜索引擎,由DougCutting于2002年创建。,Hadoop的前身:Nutch搜索引擎,Nutch,Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。,Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题,即不能解决数十亿网页的存储和索引问题。,Nutch存在的问题,Hadoop的由来,2