1、google 搜索引擎的高级应用 2007 年 10 月 07 日 星期日 00:02 进阶搜索 如果想更迅速更贴切找到需要的信息,你还需要了解更多的东西。 1、对搜索的网站进行限制 “site”表示搜索结果局限于某个具体网站或者网站频道,如“” 、“”,或者是某个域名,如“” 、 “com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名” 。 示例:搜索中文教育科研网站()上所有包含“金庸 ”的页面。 搜索:“金庸 site:” 示例:搜索包含“金庸”和“古龙”的中文新浪网站页面, 搜索:“金庸 古龙 site:” 示例:搜索新浪文教频道中关于鲁迅的信息。 搜索:“鲁迅
2、site:” 注意:site 后的冒号为英文字符,而且,冒号后不能有空格,否则, “site:”将被作为一个搜索的关键字。此外,网站域名不能有“http”以及“www”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。诸如“金庸 site: 2、查询某一类文件(往往带有同一扩展名) “filetype:”,这是个尚在测试阶段的 GOOGLE 特色查询,不过功能已经非常强大,可以做很多意想不到的事情哦。:) 最重要的文档搜索是 PDF 搜索。PDF 是 ADOBE 公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前 GOOGL
3、E 检索的 PDF 文档大约有 3500 万左右。PDF 文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。 示例:搜索关于电子商务(ECOMMERCE)的 PDF 文档。 搜索:“ecommerce filetype:pdf” 下面是某项搜索结果: PDF www.ecommerce.gov/apec 文档类型: PDF/Adobe Acrobat - 一般文字档 Page 1. A Partnership of the Business Community With APEC Economies E-COMMERCE READINESS ASSESSMENT GUIDE ww
4、w.ecommerce.gov/apec Page 2. . www.ecommerce.gov/apec/docs/readiness_guide_files/readiness_guide_5.pdf - 类似网页 可以看到,GOOGLE 在 PDF 档前加上了PDF 的标记,而且,GOOGLE 把 PDF 文件转换成了文字档,点击“一般文字档” ,可以粗略的查看该 PDF 文档的大致内容。当然,PDF原有的图片以及格式是没有了。 3、搜索的关键字包含在 URL 链接中 “inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同
5、属性的资源名称显示在目录名称或者网页名称中,比如“MP3 ”、 “GALLARY”等,于是,就可以用 INURL 语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL 语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。 示例:查找 MIDI 曲“沧海一声笑” 。 搜索:“inurl:midi 沧海一声笑” 示例:查找微软网站上关于 windows2000 的安全课题资料。 搜索:“inurl:security windows2000 site:” 注意:“inurl:”后面不能有空格,GOOGLE 也不对 URL 符号如“/”进行搜索。例如,GOO
6、GLE 会把“cgi-bin/phf ”中的“/”当成空格处理。 “allinurl”语法返回的网页的链接中包含所有作用关键字。这个查询的关键字只集中于网页的链接字符串。 示例:查找可能具有 PHF 安全漏洞的公司网站。通常这些网站的 CGI-BIN 目录中含有PHF 脚本程序(这个脚本是不安全的) ,表现在链接中就是“域名/cgi-bin/phf” 。 语法:“allinurl:“cgi-bin“ phf +com ” 搜索:已向英特网搜索 allinurl:“cgi-bin“ phf +com. 共约有 37 项查询结果,这是第 1-10 项 。 搜索用时 0.36 秒。 4、搜索的关键字
7、包含在网页标题中 “intitle”和“allintitle ”的用法类似于上面的 inurl 和 allinurl,只是后者对 URL 进行查询,而前者对网页的标题栏进行查询。网页标题,就是 HTML 标记语言 title 中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。 示例:查找日本明星藤原纪香的照片集。 搜索:“intitle:藤原纪香 写真” 其他罕用语法 1、搜索所有链接到某个 URL 地址的网页 如果你拥有一个个人网站,估计很想知道有多少人对你的网站作了链接。而“link ”语法就能让你迅速
8、达到这个目的。 示例:搜索所有含指向华军软件园“”链接的网页。 搜索:“link:” 注意:“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被GOOGLE 忽略。 2、查找与某个页面结构内容相似的页面 “related”用来搜索结构内容方面相似的网页。例:搜索所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等) , “related: 3、从 GOOGLE 服务器上缓存页面中查询信息 “cache”用来搜索 GOOGLE 服务器上某页面的缓存,通常用于查找某些已经被删除的死链接网页,相当于使用普通搜索结果页面中的“网页快照”功能。 示例:查找 GOO
9、GLE 缓存的中文 163 首页 搜索:“cache: ” 结果:这是 Google 内 http:/ 的页库快照。 Google 已先预览各网站,拍下网页的快照存档。 这网页可能有更新的版本,请按此查看新版。 Google 和网页作者无关,不对网页的内容负责。 . 4、info info 用来显示与某链接相关的一系列搜索,提供 cache、link、related 和完全包含该链接的网页的功能。 示例:查找和新浪首页相关的一些资讯。 搜索:“info:” 结果:有关 的网页信息。 新浪首页 北京站 上海站 广东站. . 首页, , 新闻, , 体育, , 财经, , 科技, , 娱乐, ,
10、 游戏, , 军事, , 健康, , 教育, , 汽车, , 女性, , 个人家园. . 简介: 位于北京的新闻中心,包括新闻与评论。 类别: World Chinese Simplified 新闻 Google 提供这个网址的信息: 查看 Google 网页快照里 的存档 寻找和 类似的网页 寻找网页有链接到 寻找网页包含有““ 搜索 PDF 文档还可以用“inurl:”语法。比如上例,也可以用“inurl:pdf ecommerce”。搜索结果数量大致相同,不过查询结果顺序则略有很大差别。 注意,上述查询均是对 PDF 内文的检索, “ecommerce”这个关键字是包含在 PDF
11、文档中的。 图片搜索 GOOGLE 的图片搜索功能真是个伟大的发明!GOOGLE 自称可以检索 320,000,000 张图片,并称自己为“互联网上最好用的图像搜索工具” 。GOOGLE 首页点击“图像”链接就进入了 GOOGLE 的图像搜索界面“” 。你可以在关键字栏位内输入描述图像内容的关键字,如“britney spears”,就会搜索到大量的小甜甜布兰妮的图片。我目前尚不是很清楚图片的排列标准,不过以观察来看,似乎图片文件名完全符合关键字的结果排列比较考前,然后才按照普通的页面搜索时的标准排列。GOOGLE 给出的搜索结果具有一个直观的缩略图(THUMBNAIL) ,以及对该缩略图的简
12、单描述,如图像文件名称,以及大小等。点击缩略图,页面分成两祯,上祯是图像之缩略图,以及页面链接,而下祯,则是该图像所处的页面。屏幕右上角有一个“Remove Frame”的按钮,可以把框架页面迅速切换到单祯的结果页面,非常方便。 GOOGLE 图像搜索目前支持的语法包括“+” , “-”, “OR”, “site”和“filetype” 。 示例:查找美国教育网上的宇宙大爆炸 jpg 图片 搜索:“BIG BANG filetype:jpg site:edu” 目录内搜索 如果不想搜索广泛的网页,而是想寻找某些专题网站,可以访问 GOOGLE 的分类目录“http:/directory.goo
13、gle. com/” ,中文目录是“http:/ 目前 GOOGLE 使用的分类目录采用了 ODP 的内容。 “Open Directory Project”是网景公司所主持的一项大型公共网页目录。由全世界各地的义务编辑人员来审核挑选网页,并依照网页的性质及内容来分门别类。因此,在某一目录门类中进行搜索往往能有更高的命中率。另外,GOOGLE 根据其专业的“网页级别” (PageRank)技术对目录中登录的网站进行了排序,可以让一般的检索更具高效率。 示例:查找一下关于癌症治疗以及护理方面的中文资料 搜索:先进入中文简体分类目录,再进入“健康”子目录,确定选中“只在健康中搜索”单选项目。在搜索
14、栏内填入“癌症”进行搜索。 结果:在分类健康项中搜索癌症。 共约有 370 项查询结果,这是第 1-10 项 。 搜索用时0.05 秒。 可以看到,上述查询结果比普通的检索更有效,因为在分类健康项中进行搜索剔除了很多不相关的诸如新闻之类的无效信息。不过,对于中文用户而言,现在最大的问题是志愿的中文目录编辑太少,导致收录站点太少,因此搜索结果范围显得过于狭隘。但愿这个问题能随着 GOOGLE 以及 ODP 项目在国内名声的响亮而能得到改观。 新闻组(USENET )搜索 新闻组有详尽的分类主题,某些主题还有专人管理和编辑,具有大量的有价值信息。由于新闻组包含的信息实在是海量,因此不利用工具进行检
15、索是不大可能的。DEJA 一直是新闻组搜索引擎中的佼佼者。2001 年 2 月份,GOOGLE 将 DEJA 收购并提供了所有 DEJA 的功能。现在,除了搜索之外,GOOGLE 还支持新闻组的 WEB 方式浏览和张贴功能。 进入 GOOGLE 新闻组“http:/ ,你有两种信息查找方式。一种是一层层的点击进入特定主题讨论组,另一种则是直接搜索。现在,我们进行一个最简单的搜索试验,查找一下新闻组中关于山顶洞人的讨论信息。 搜索:“山顶洞人” 结果:在各群组内搜索 山顶洞人 共约有 18 项查询结果,这是第 1-10 项 。 搜索用时0.29 秒。 搜索结果默认按照“留言内容”排列,但是你也可
16、以点击“依照日期”按钮,让帖子按照发布日期排列。 因为新闻组中的帖子实在是多,而且又涉及一些普通搜索所没有的语法,所以建议使用“高级群组搜寻”进入高级搜索界面。新闻组高级搜索提供留言内容、分类主题、标题、留言者、留言代码、语言和发布日期作为条件进行搜索。其中作者项指作者发帖所用的唯一识别号电子信箱。 GOOGLE 的其他杰出功能 1、集成化的工具条 为了方便搜索者,GOOGLE 提供了工具条,集成于浏览器中,用户无需打开 GOOGLE 主页就可以在工具条内输入关键字进行搜索。此外,工具条还提供了其他许多功能,如显示页面 PageRank 等。最方便的一点在于用户可以快捷的在 GOOGLE 主页
17、、目录服务、新闻组搜索、高级搜索和搜索设定之间切换。欲安装 GOOGLE 的工具条,可以访问“http:/ 工具条目前只支持 IE5.0 以上版本。 对于经常进行网络搜索者而言,GOOGLE 工具条实在是必备的东西! 2、单词英文解释 写英文文章的时候,最头疼的事情就是对某个英文单词的用法不确定。现在有了GOOGLE,一切就迎刃而解了!无论你是想查找某个生词的意思还是想了解某个单词的用法,均可使用在线词典。 进入英文 GOOGLE,输入你要查的单词。举个例子,我想查一下 suggest 的用法。结果如下:“Searched the web for suggest. Results 1 - 10
18、 of about 8,000,000. Search took 0.08 seconds. ”注意看上面句子中,单词 suggest 下出现了一个横线,点击这个链接,就跳转到另外一个网站“http:/ ,GOOGLE 已经把单词提交给该网站的查询脚本。看看这个网站所提供的详尽解释吧。:) 3、网页翻译 你懂英文,但是你不见得就懂德文、法文、拉丁文。如果搜索出来的页面是这些语言怎么办?呵呵,GOOGLE 提供了网页翻译功能!虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文,但是我不得不承认,这是个杰出功能。 试着做以下搜索:“big bang site:fr”。这个表示查找关于宇宙大
19、爆炸的法文网页。看第一条结果: The Big Bang Website - Translate this page . A propos de Big Bang. Le dernier numro en date. Les anciens numros. Autres activits. Concerts progressifs en France. Emissions de radio. Liens. perso.club-internet.fr/calyx/bigbang/ - 3k - Cached - Similar pages 有点晕。没关系,点击“Translate this page”按钮。再看结果,嗯,大致能看明白,这原来是个叫“big bang ”的乐队的网站,与大爆炸无关. 机器翻译是一个很前沿的人工智能课题,想指望翻译出来的结果跟专门用英语撰写的内容是不可能的。但西文间的互相转译比中英文机译强得多得多了。至少能看明白。 4、搜索结果过滤 网络上的成人内容浩如烟海,而且很多站点具有欺骗或者其他不良企图,浏览者很容易掉入其中的陷阱。为此,GOOGLE 新设立了成人内容过滤功能,见 GOOGLE 的设置页面,http:/ SafeSearch Filtering。不过,中文状态下的 GOOGLE 尚没有这个功能。