搜索引擎工作原理概述.docx

上传人:sk****8 文档编号:4230535 上传时间:2019-10-06 格式:DOCX 页数:7 大小:72.37KB
下载 相关 举报
搜索引擎工作原理概述.docx_第1页
第1页 / 共7页
搜索引擎工作原理概述.docx_第2页
第2页 / 共7页
搜索引擎工作原理概述.docx_第3页
第3页 / 共7页
搜索引擎工作原理概述.docx_第4页
第4页 / 共7页
搜索引擎工作原理概述.docx_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、让网络营销管理 简单、直接、有效、可视化Simple,direct,effeftive,and visualization搜索引擎工作原理的几个基本问题解答搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。类型:A.全文检索搜索引擎(全文索引)B.目录搜索引擎(目录索引)C.元搜索引擎E.其他非主流形式A.全文搜索引擎:名副其实的搜索引擎,通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。如:百度、Goo

2、gle、360 B. 目录搜索引擎:目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,以人工方式或半自动方式搜集信息,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。如:搜狐、新浪、网易。C. 元搜索引擎:是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,并将结果返回给用户。如:搜星搜索引擎,优客搜索、360综合搜索。D. 其他:如垂直搜索引擎:不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等)

3、,在其特定的搜索领域有更好的用户体验,更加专注、具体和深入。用户检索系信息展示的结果是怎么来的?数据收集预处理(索引)排名l 抓取维护策略l 链接跟踪l 地址库l 文件存储l 提取文字l 分词l 去重l 建立索引l 链接算法l 搜索词的处理l 文件匹配l 初使子集选择l 计算相关性l 排名过滤与调整l 排名显示SEO搜索引擎优化,是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。前提:了解搜索引擎自然排名机制、工作原理。目的:对网站进行内部和外部的调整优化,改进网站在搜索引擎中关键词的自然排名,获得更多流量,从而达到网络营销及品牌建设的目标。网页快照:网页缓存或者备份网页

4、 1,保留网页修改前的内容信息。2,体现蜘蛛爬行网站的频率等分析蜘蛛的信任度3,当网页打不开时或者打开速度慢时,可以用网页快照打开,很快就会打开。以文本方式打开网页内容,加载速度快。了解搜索引擎的原因:保证用户体验的基础上尽量迎合搜索引擎。搜索引擎要解决什么问题,有哪些技术上的困难,有什么限制,搜索引擎又怎样取舍。搜索引擎工作首要环节是什么?答案:如何有效的获取并利用这些信息。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。如:Baiduspdier、sosospdier、Googlebot、Sog

5、ou Web Spider等。通过日志能查询详细情况。蜘蛛:是搜索引擎用来爬行和访问页面的程序。访问互联网上的html网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。索引数据库等简单说明。没有抓取和纳入索引数据库的信息等等详细说明。问题:搜索引擎是如何抓取网页?发现某一个链接 下载这一个网页 加入到临时库 提取网页中的链接 在下载网页 循环。通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。robots协议,网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的,遵守君子协议。例子:1. 允许所有SE(搜索

6、引擎)收录本站:robots.txt为空就可以,什么都不要写。2. 禁止所有SE(搜索引擎)收录网站的某些目录:User-agent: *Disallow: /目录名1/Disallow: /目录名2/Disallow: /目录名3/3. 禁止某个SE(搜索引擎)收录本站,例如禁止百度:User-agent: BaiduspiderDisallow: /User-agent: GooglebotDisallow: /4. 禁止所有SE(搜索引擎)收录本站:User-agent: *Disallow: /它的用途是告诉上一子集,确定某个对象用的。链接的几种形式:文本链接:超链接:锚文本:SEO优化抓取策略: 深度策略 广度策略1、抓取友好性:抓取压力调配降低对网站的访问压力2、常用抓取返回码示意3、多种url重定向的识别4、抓取优先级调配5、重复url的过滤6、暗网数据的获取7、抓取反作弊8、提高抓取效率,高效利用带宽原文地址:http:/ 本文由杭州橙速网络科技有限公司原创提供,转载请注明出处

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 自然科学

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。