1、搜索引擎工作原理简单模拟上海易闻 SEO培训班前言o 这里的模拟非常简单和傻瓜,但可以说明搜索引擎是如何处理页面的过程。o 第一步:通过蜘蛛抓取页面;n 什么是蜘蛛?n 如何抓取页面?以文本形式下载,送会服务器。第一步:通过蜘蛛抓取页面o 什么是蜘蛛?n Googlebot、 baiduspider、n Yahoo、 Slurp、 Msnboto 如何抓取页面?n 以文本形式下载,送会服务器。n 可能会做一些预处理,比如:压缩等o 可能妨碍蜘蛛抓取的行为:跳转、识别分辨率第二步:网页文件处理o 首先过滤所有 HTML标签、 CSS样式表、 JS代码 工具: http:/ 闻网 页贴 吧知 道
2、MP3图 片帮助高级 空间 | 更多 把百度设为首页企业推广 |搜索风云榜 |关于百度|AboutBaidu2007Baidu 使用百度前必读京ICP证 030173号百度首页经过处理后得到后的样子:第三步:识别文字内容o 通过对过滤后文字内容的分析,来判断网页的核心内容。百度一下,你就知道新 闻网 页贴 吧知 道 MP3图 片帮助高级 空间 | 更多把百度设为首页企业推广 |搜索风云榜 |关于百度|AboutBaidu2007Baidu 使用百度前必读京 ICP证 030173号搜索引擎程序通过对上面文字的分析,发现以下信息:1. 一共有 95个字符;其中 56个中文字。2. “百度 ”出现
3、 4次,共 8个中文,占 16个字符。3. 8560.14 14% 1695 0.1616%判断结论:本页面和关键词 “百度 ”有密切关系。第四步:进行权重分值技术o 假设关键词重复 1次得 1分,那百度首页的得分就是 “4”当然,搜索引擎的真实计算过程非常负责,有数百个参数参与计算。YAHOO!的工程师告诉我:“所有搜索引擎最核心的是外部链接的技术和关键词密度的技术 ”第五步:存入排名数据库o 通过以上各种分析后,一个页面就可以存入排名数据库了(也叫索引数据库)。n 百度首页就可能放入一个叫 “百度 ”的小数据库中。o 以后当用户搜索 “百度 ”时,就打开 “百度 ”小数据库,然后按分值排列,做成 HTML展示到用户面前。搜索引擎的处理过程:就好比把采来的草药,经过处理,放入对应的抽屉中一样。- END -