分布式并行计算论文.docx

上传人:乾*** 文档编号:12903419 上传时间:2022-06-26 格式:DOCX 页数:11 大小:248.29KB
下载 相关 举报
分布式并行计算论文.docx_第1页
第1页 / 共11页
分布式并行计算论文.docx_第2页
第2页 / 共11页
分布式并行计算论文.docx_第3页
第3页 / 共11页
分布式并行计算论文.docx_第4页
第4页 / 共11页
分布式并行计算论文.docx_第5页
第5页 / 共11页
点击查看更多>>
资源描述

基于Hadoop分布式爬虫设计综述摘要:由于Internet规模不断扩大,包罗万象的信息资源被连接在一起,形成了一个广阔宏大的信息空间在这个空间中,存在着海量的信息,如何快速高效和安全地让网络用户在如此浩瀚的信息海洋之中找到并获取自己所需的资源,是当前互联网发展的最大挑战之一。如今,云计算已成为当前的重要趋势之一。本文主要阐述在Hadoop分布式文件系统HDFS以及分布式计算框架MapReduce的基础上开发的分布式搜索引擎的爬虫设计相关技术、原理、流程图。关键词:云计算分布式爬虫Hadoop搜索引擎1引言随着搜索引擎的发展,搜索引擎所采用的技术也随之变得丰富和多样化,能够适应不同搜索用户以及不同搜索目的的需要。目前,搜索引擎的性能指标主要有三个:首先考虑的是规模的大小,只有规模达到一定的数量级,用户搜索结果的符合度才能够达到满足不同用户的需求程度;其次是性能,搜索引擎的网络蜘蛛必须在一个较短的时间内完成对目标网络的信息搜索,同时,能够在用户可容忍的时间段内,完成搜索结果的反馈;最后是搜索的质量,能够去掉信息重复的网页,对一些无用信息进行过滤,能够准确返回用户想要的结

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 商业租赁

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。