网页去重策略和实现(共4页).doc

上传人:晟*** 文档编号:7868107 上传时间:2021-11-14 格式:DOC 页数:4 大小:39KB
下载 相关 举报
网页去重策略和实现(共4页).doc_第1页
第1页 / 共4页
网页去重策略和实现(共4页).doc_第2页
第2页 / 共4页
网页去重策略和实现(共4页).doc_第3页
第3页 / 共4页
网页去重策略和实现(共4页).doc_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

精选优质文档-倾情为你奉上网页去重的策略和实现0 引言互联网时代的到来,极大地影响了人们的日常生活,改变着人类的生活习惯。同时,也给人们带来了极大的便利。人们越来越喜欢通过搜索引擎来查找自己想要得到的内容和信息,这是搜索引擎技术的机遇,然而也是挑战,因为人们的要求也越来越苛刻。在我们用搜索引擎搜索信息的时候,常常会遇到这样一种情况:很多内容相同或相似的网页会被搜索引擎提交给我们。这对用户来说,是很不便利的,不仅浪费了时间,也占用了大量的资源。同时,也降低了搜索引擎的服务效率。因而网页去重技术也慢慢被人们重视起来。网页去重的算法有很多种,本文重点介绍一种基于网页中文字主题要素的网页去重算法。1网页去重的理论基础1.1搜索引擎搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。搜索引擎的工作原理:第一步:爬行搜索引擎是通过一种特定规律的软件跟踪网

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 公文范文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。