搜索引擎工作原理简单模拟.PPT

上传人:国*** 文档编号:1051173 上传时间:2018-11-26 格式:PPT 页数:10 大小:111KB
下载 相关 举报
搜索引擎工作原理简单模拟.PPT_第1页
第1页 / 共10页
搜索引擎工作原理简单模拟.PPT_第2页
第2页 / 共10页
搜索引擎工作原理简单模拟.PPT_第3页
第3页 / 共10页
搜索引擎工作原理简单模拟.PPT_第4页
第4页 / 共10页
搜索引擎工作原理简单模拟.PPT_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、搜索引擎工作原理简单模拟上海易闻 SEO培训班前言o 这里的模拟非常简单和傻瓜,但可以说明搜索引擎是如何处理页面的过程。o 第一步:通过蜘蛛抓取页面;n 什么是蜘蛛?n 如何抓取页面?以文本形式下载,送会服务器。第一步:通过蜘蛛抓取页面o 什么是蜘蛛?n Googlebot、 baiduspider、n Yahoo、 Slurp、 Msnboto 如何抓取页面?n 以文本形式下载,送会服务器。n 可能会做一些预处理,比如:压缩等o 可能妨碍蜘蛛抓取的行为:跳转、识别分辨率第二步:网页文件处理o 首先过滤所有 HTML标签、 CSS样式表、 JS代码 工具: http:/ 闻网 页贴 吧知 道

2、MP3图 片帮助高级 空间 | 更多 把百度设为首页企业推广 |搜索风云榜 |关于百度|AboutBaidu2007Baidu 使用百度前必读京ICP证 030173号百度首页经过处理后得到后的样子:第三步:识别文字内容o 通过对过滤后文字内容的分析,来判断网页的核心内容。百度一下,你就知道新 闻网 页贴 吧知 道 MP3图 片帮助高级 空间 | 更多把百度设为首页企业推广 |搜索风云榜 |关于百度|AboutBaidu2007Baidu 使用百度前必读京 ICP证 030173号搜索引擎程序通过对上面文字的分析,发现以下信息:1. 一共有 95个字符;其中 56个中文字。2. “百度 ”出现

3、 4次,共 8个中文,占 16个字符。3. 8560.14 14% 1695 0.1616%判断结论:本页面和关键词 “百度 ”有密切关系。第四步:进行权重分值技术o 假设关键词重复 1次得 1分,那百度首页的得分就是 “4”当然,搜索引擎的真实计算过程非常负责,有数百个参数参与计算。YAHOO!的工程师告诉我:“所有搜索引擎最核心的是外部链接的技术和关键词密度的技术 ”第五步:存入排名数据库o 通过以上各种分析后,一个页面就可以存入排名数据库了(也叫索引数据库)。n 百度首页就可能放入一个叫 “百度 ”的小数据库中。o 以后当用户搜索 “百度 ”时,就打开 “百度 ”小数据库,然后按分值排列,做成 HTML展示到用户面前。搜索引擎的处理过程:就好比把采来的草药,经过处理,放入对应的抽屉中一样。- END -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。