ImageVerifierCode 换一换
格式:PPT , 页数:189 ,大小:4.53MB ,
资源ID:452059      下载积分:12 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-452059.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(网络信息检索与利用(专题讲座).ppt)为本站会员(ga****84)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

网络信息检索与利用(专题讲座).ppt

1、,网络信息资源基础知识,导 言,导 言,一、文献检索是一门既古老又年轻的学科 约4000年前,人类就开始有目的地组织信息,一个典型的例子就是图书中的目录。 随后,逐渐出现索引的概念,即从一些词和概念指向相关信息或者文档的指针。 到了1948年,C. N. Mooers在其MIT的硕士论文中第一次创造了“Information Retrieval”这个术语。,文献检索是一门既古老又年轻的学科,信息检索发端于19世纪前期,主要以手工检索方式为主,其发展速度较为缓慢,检索效率普遍不高。到20世纪50年代,1951年世界上出现了最早的计算机系统,这可称得上是信息检索发展史上的一个里程碑。随着计算机技术

2、的不断进步,进入 20世纪90年代,网络技术开始进入社会生活各个领域,计算机检索也逐步由脱机检索、联机检索发展到如今Internet环境下网络检索。,导言,二、网络信息检索是文献检索面对的新课题 网络检索以其低廉的费用、迅速的存取等多种功能对传统的检索造成了强力的冲击,与此同时,一些新的理论、新的课题也应运而生,加速了现代情报学和信息学的发展。 网络信息检索是指对利用Internet信息发布技术,通过Internet发布的信息进行的检索,主要利用搜索引擎、网络机器人和门户站点等来完成。随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,其信息数量之大、类型之多,已经给人们的工

3、作、学习和生活方式带来了巨大影响。,网络信息检索是文献检索面对的新课题,为了充分发挥网络信息的重要作用,并能迅速在上百万个网站中快速有效地查找到想要得到的信息,必须对网络检索的特性进行研究分析,并掌握网络信息资源的特点、基本方法和检索技巧与检索工具等重要内容。网络信息资源的分布主要以网站为单位,数以千计的网站在Internet上形成了犬牙交错的信息资源库。,网络信息检索是文献检索面对的新课题,因特网的发展,逐渐改变了信息资源原有的属性,将文献信息数字化、应用环境网络化、技术手段多媒体化;运用情报学的理论与方法组织无序的网络信息,为用户服务;研究中文数据库的组织与检索技术将是我国情报学界必须重视

4、的问题。 网络信息资源开发利用是我国信息化建设的核心内容。在我国信息基础设施建设已初具规模的今天,网络信息资源建设显得极为重要与迫切。这需要情报工作者认真研究解决。此课题包括以下方面的内容:网络信息组织;网络信息检索策略;基于内容检索探讨等,第一章 网络信息资源 基础知识,本章内容,第一节 因特网基础第二节 网络信息资源第三节 搜索引擎第四节 搜索引擎使用技巧第五节 搜索典型案例,第一节因特网基础,一、因特网概述,因特网是英文Internet的中文译名,也有人译作互联网或国际互联网。1997年7月18日,全国科学名词审定委员会正式确定Internet译为因特网。因特网是当今世界上最大最流行的计

5、算机网络,从资源角度看,它是一个集各部门、各领域的各种信息资源为一体的供网上用户共享的信息资源库。 因特网现在已成为全球最大的数字化信息资源集散地,是人类的巨大财富。它包含的信息资源几乎包括了人类的全部活动。它包括商业、通信业、教育、科研、娱乐、政府部门、图书出版、工业生产、航空航天、建筑学、生物学、化学、物理、计算机、数学、地球科学、天文学、海洋学、医学、语言、文化、文学艺术、法律、政治与经济学、宗教、体育等许多方面。,二、我国因特网发展概况,因特网在我国的发展,大致经历了两个阶段: 1. 1987年至1993年为第一阶段。 1987年9月20日,钱天白教授通过意大利公用分组网ITAPAC设

6、在北京的PAD机,经由意大利ITAPAC和德国DATEXP分组网,发出我国第一封电子邮件“越过长城,通向世界”,揭开了中国人使用Internet的序幕。实现了和德国卡尔斯鲁厄大学的连接,通讯速率最初为300bps . 进入90年代后,我国也开始投入巨资进行国内的计算机网络建设以及与Internet的连接,我国因特网发展概况,2.1994年至今为第二阶段。 1994年,我国建成第一个跨园区的光纤互联计算机网络北京中关村地区教育与科研示范网络(NCFC),该网络把清华大学、北京大学的校园网,以及中科院在中关村地区的众多研究所通过光纤连成一体。它通过美国Sprint公司连入Internet的64K国

7、际专线开通从中科院网络中心到美国的国际线路。 Internet组织把NCFC国际线路开通的时间,即1994年5月定义为中国加入Internet的时间,三、目前我国已建成的大型互联网络,由邮电部管理的中国公用计算机网(CHINANET)由教育部管理的中国教育与科研网(CERNET)由中国科学院管理的中国科技网(CSTNET)由信息产业部管理的中国金桥网(CHINAGBN) 上述大型互联网络都是经国务院批准、与Internet相连的国家级互联网络,国内其他网络作为接入单位与上述互联网络之一相连,通过它们实现与Internet的连接。 1997年6月,中国科学院在中国科学院计算机网络信息中心组建了中

8、国互联网络信息中心(China Internet Network Information Center, CNNIC),行使中国国家互联网络信息中心的职责。,五、因特网的信息服务功能,1.远程登录(Telnet)服务2.电子邮件(E-mail)服务3.文件传输(FTP)服务4.网络新闻服务(Usenet)5.网上信息的浏览和查询服务,1.远程登录(Telnet)服务,远程登录:(Remote-login)是Internet提供的最基本的信息服务之一,远程登录是在网络通讯协议Telnet的支持下使本地计算机暂时成为远程计算机仿真终端的过程。 在远程计算机上登录,必须事先成为该计算机系统的合法用户

9、并拥有相应的帐号和口令。登录时要给出远程计算机的域名或IP地址,并按照系统提示,输入用户名及口令。,远程登录(Telnet)服务,例如 telnet: 远程登录清华大学bbs 登录成功后,用户便可以实时使用该系统对外开放的功能和资源,例如,共享它的软硬件资源和数据库,使用其提供的Internet的其他信息服务。 另外,目前一种很受欢迎的服务BBS(Bulletin Board System,电子公告牌系统,可让用户留言的电子公告牌),也是基于Telnet的。,3.文件传输服务(FTP), 文件传输:是指计算机网络上主机之间传送文件,它是在网络通讯协议FTP(File Transfer Pro

10、tocol)的支持下进行的。 用户一般不希望在远程联机情况下浏览存放在计算机上的文件,更乐意先将这些文件取回到自己计算机中,FTP正好能满足用户的这一需求。Internet网上的两台计算机在地理位置上无论相距多远,只要两者都支持FTP协议,网上的用户就能将一台计算机上的文件传送到另一台。 FTP与Telnet类似,也是一种实时的联机服务。使用FTP服务,用户首先要登录到对方的计算机上,与远程登录不同的是,用户只能进行与文件搜索和文件传送等有关的操作(文件的执行一般不可以)。,文件传输(FTP)服务,FTP的使用 普通的FTP服务要求用户在登录到远程计算机时提供相应的用户名和口令。许多信息服务机

11、构为了方便用户通过网络获取其发布的信息,提供了一种称为匿名FTP的服务(Anonymous FTP)。用户在登录到这种FTP服务器时无需事先注册或建立用户名与口令,而是以Anonymous作为用户名,一般用自己的电子邮件地址作为口令。,文件传输(FTP)服务,匿名FTP是最重要的Internet服务之一。许多匿名FTP服务器上都有免费的软件、电子杂志、技术文档及科学数据等供人们使用。匿名FTP对用户使用权限有一定限制:通常仅允许用户获取文件,而不允许用户修改现有文件或向它传送文件;另外对于用户可以获取的文件范围也有一定限制。在匿名FTP服务器中文件一般预先进行压缩或打包处理。 可以以命令方式来

12、访问,如录入ftp命令,然后录入你连接的远程主机的地址名: ftp:/ rtfm.mit.edu,4.网络新闻服务(Usenet),网络新闻:(Network News)通常又称作USENET,是比WWW浏览更为“古老”的一种网络服务,现在互联网上的各种BBS(含论坛、社区等)都是在它的基础上发展而来的。许多重要的信息(比如新闻、新软件)都往往第一时间出现在一些新闻组上,之后才被更多人所知。,网络新闻服务(Usenet),新闻组中对贴子的阅读、发表、回复等都是以E-mail的形式来完成的,用户将自己感兴趣的内容下载后,就可以脱机后再随时浏览。在经历了长期的发展后,新闻组日趋成熟,它的题材面广、

13、信息量大、时效性强、自由度高,成为了许多专业人士进行网上信息传递的最主要途径之一。,网络新闻服务(Usenet),它是具有共同爱好的Internet用户相互交换意见的一种无形的用户交流网络,它相当于一个全球范围的电子公告牌系统。 网络新闻是按不同的专题组织的。志趣相同的用户借助网络上一些被称为新闻服务器的计算机开展各种类型的专题讨论。,网络新闻服务(Usenet),传统的Usenet在阅读文章时,必须使用一个叫新闻阅读器(newsreader)的程序。新闻阅读器作为你的连接口:当你告知它你想要阅读的某个指定的新闻组时,它会给你呈现有关文章,一次一篇。在Unix系统中,最为流行的四种阅读器是rn

14、(是这些新闻阅读器中最早的一个)、 nn、 tin和trn,5.网上信息的浏览和查询服务,Gopher:是Internet上一个非常有名的信息查找系统,它将Internet上的文件组织成某种索引,很方便地将用户从Internet的一处带到另一处。允许用户使用层叠结构的菜单与文件,以发现和检索信息,它拥有世界上最大、最神奇的编目。 Gopher客户程序和Gopher服务器相连接,并能使用菜单结构显示其它的菜单、文档或文件,并索引。同时可通过Telnet远程访问其它应用程序。,网上信息的浏览和查询服务,Gopher协议使得Internet上的所有Gopher客户程序,能够与Internet上的所有

15、已“注册”的Gopher服务器进行对话。 Gopher是Internet工具中最激动人心的发展之一,它使新用户不必成为技术专家,就能迅速找到Internet爱好者们为之欢呼的许多优秀的资源,网上信息的浏览和查询服务,WWW:的含义是环球信息网(World Wide Web),它是一个基于超文本(Hypertext)方式的信息查询工具,将位于全世界Internet网上不同网址的相关数据信息有机地编织在一起,通过浏览器 (Browser)提供一种友好的查询界面:用户仅需要提出查询要求,而不必关心到什么地方去查询及如何查询,这些均由WWW 自动完成。,网上信息的浏览和查询服务,WWW的发明人Tim

16、Berners Lee在1984年就提出了超文本的概念。所谓(Hypertext)超文本,是一种用计算机来实现连接相关文档的结构,该连接以高亮单词或图像形式嵌入在文档的文本之中。当被激活时,便立即检索连接的文档并显示出来,在被连接的文档中又可以嵌套别的连接,如此多重嵌套,以至无穷。,WWW与Gopher的区别,WWW展示给用户的是一篇篇的文章、一幅幅图片或精美的动画,甚至是优美的乐曲,而不是象Gopher那些时常令人费解的菜单说明。因此使用它查询信息具有很强的直观性 Gopher是一个菜单式浏览工具,它是“树”型结构;WWW采用超链接,是“网”状结构,形如“蜘蛛网”。,WWW与Gopher的区

17、别,随着多媒体技术的发展,在超文本结构中除文字外还可以链接图形、视频、声音等多媒体信息,因此人们引出了超媒体概念。换言之,(Hypermedia)超媒体=超文本+多媒体。 虽然WWW并不等于Internet,但是两者之间的关系又相当密切。对一些刚上网的用户,WWW(万维网)几乎成了Internet的代名词,这是因为万维网的发展非常迅速,它以其独特的超文本“链接”方式,方便的交互式图形界面和丰富多彩的内容,在整个Internet活动中占据的位置越来越重要,第二节网络信息资源,本节主要内容,一、网络信息资源的特点二、网络信息资源的类型三、常见网络数据库检索系统,一、网络信息资源的特点,总体来讲,网

18、络信息资源相比其他信息资源具有如下主要特点 :1.离散性与共享性2.动态性和及时性3.不均匀性4.潜在的失控性,网络信息资源的特点,1.离散性与共享性是受/支持的应用协议集,它采用,和进行信息定位、存取和显示。在静态上,是一个全球范围内的相互链接的多媒体信息网,同时在逻辑上它也可被看作是用书写的分布式超文本结构。这种超文本结构使得文档之间用热键连接,这种自由度使得信息交换与分享潜力无穷。也正是由于这种离散性,使得网络信息资源能为所有网络用户共享,这一优越性是其他信息资源所不具备的。,网络信息资源的特点,2.动态性和及时性: 网上信息资源的瞬息万变,极其丰富,信息的更新也很迅速。 3.不均匀性有

19、两重含义,一是网络信息的质量不均匀,二是网络信息分布不均匀。 4.潜在的失控性任何个人团体只需具备上网条件能够使用,就可以把任何信息放到网上,这种信息经过种种检索工具的标引,就可供用户检索,中间没有任何形式的质量控制,势必影响检索效果的查准率,从而导致检索效率的失控。,二、网络信息资源的类型,从文献信息检索角度看,我们可以把网络信息资源分成以下几种类型:1、网上图书信息2、电子期刊 3、专利信息 4、网上数据库 5、网上其它科技信息,1、网上图书信息,Internet上提供的图书信息主要包括书目信息和电子图书这些信息我们可从以下几个方面来获取: (1) 出版商提供的书目信息。国内外许多出版社都

20、有自己的网站, 通过Internet发布其出版物的目录、最新图书内容简介、价格等信息。(2) 数字图书馆提供的电子图书。数字图书馆是数字化生存时代的重要文化基础设施。利用这些图书馆,记载人类文明成果的图书资料就会方便地进入人们的生活,网上图书信息,(3) 图书馆、文献情报中心提供的联机图书馆馆藏目录。目前全球至少有15000个大型图书馆的联机目录24小时对外开放,通过OPAC我们可以查询到大量的书目信息,确定某本书是否在馆,能否通过馆际互借加以利用等,有些联机目录不但提供书目及摘要, 还提供其它的信息资源。,2、网上电子期刊信息,电子期刊是非常重要的网络资源。网上电子期刊时效性强、内容丰富、检

21、索途径多样,已成为利用率非常高的网络信息源,特别是免费的电子期刊。网上电子期刊包括与印刷版同时发行和仅在网上发行的两种,其主要来源渠道有: (1)出版商和文摘索引服务商提供的期刊检索服务。目前,国际上大多数主要的期刊出版都建立了全文数字化期刊数据库。并通过Internet提供其服务。,网上电子期刊信息,(2) 网络数据库信息服务商提供的服务。存储在网络服务器上的网络数据库品种多、质量高、大多由信息服务商或大型图书馆机构创建维护。(3) 网络版期刊提供的服务。目前,许多期刊正在网上建立自已的网站,便于读者上网检索或提供免费的电子邮件现刊目录服务,网上电子期刊信息,(4) 文献情报部门或学术性机构

22、提供的服务。文献情报部门或学术性机构通过自己的网站提供期刊或其它类型文献的网上检索服务,用户在有的网站检索二次文献信息的同时,还可以订购原始文献,原文可通过E-mail、传真、浏览、下载和联机打印等方式获取。,3、网上专利信息,网上的专利信息资源可从以下几个方面来获取: (1) 利用专利管理机构网站提供的信息。专利管理机构网站主要是指各国(地区)或地方专利局的主页或者由它们及其下属机构开发的网站。这类网站提供的专利信息全面、权威、新颖。例如美国、加拿大、日本等国的专利数据库在INTERNET上均可得到免费使用。,网上专利信息,(2) 利用联机检索系统中的专利数据库。一些知名的联机检索系统中都包

23、含与专利有关的数据库。如Dialog系统(http:/)、STN (www.cas.org/stn.html)系统等。(3) 利用数据库出版机构提供的信息。主要有Derwent公司、英国IEE公司(INSPEC)。,4、网上数据库信息,这是最有价值的信息资源之一,一般以商业性数据库或政务数据库的形式出现,需要通过购买或用户授权才能使用。网上数据库有全文型、文摘型、题录型、事实和数值型、多媒体型等。Internet上也有大量、有价值的免费数据库,只要我们要善于发现、搜集,往往会得到意外的惊喜。,网上数据库信息,数据库可以分为五种类型 (1)文献书目数据库 :Bibliographic Datab

24、ase (2)全文数据库 :Complete Text Databases(3)信息指南数据库 :Dictionary Databases(4)数值型数据库 :Numeric Databases(5)其他类型的数据库,(1)文献书目数据库,文献书目数据库是存储某个领域原始文献的书目,即二次文献数据库,记录内容包括文献的题目、著者、原文出处、文摘、主题词等大多数是印刷本检索工具的机读版,如美国工程索引数据库(EI)英国科学文摘数据库(INSPEC)美国化学文摘数据库(CA),(2)全文数据库,全文数据库是存储文献内容全文或其中主要部分的数据库,简称全文库.是将信息的全部文字和非文字内容转换成计算

25、机可读形式. 全文数据库可以解决用户获取一次文献所遇到的困难,能向用户提供一步到位的查找原始文献的信息服务。据统计,在美国,全文数据库从1985年的28%增加到1995年的52%,其数量是书目型数据库的一倍,而书目型数据库则从57%下降到24% 我国已有中国学术期刊全文数据库、书生之家数字图书馆和超星数字图书馆等全文数据库产品,(3)信息指南数据库,信息指南数据库主要是记录一些机构、人物、产品、项目简述等事实数据,通过该类数据库可以查到公司、机构地址、电话、产品目录、研究项目或名人简历等信息,这类数据库也称为事实数据库,(4)数值数据库,数值数据库是专门提供以数据形式表示信息的一种源数据库,主

26、要记录科学研究中试验、测量、计算、工程设计、经济分析和工业规划等方面的数据这类数据库主要包含数值数据,有的也包含文字,文字是用来定义数据所需的最小量的文字,有时称为文本数值数据库(Textual-numeric Databases),(5)其他类型的数据库,除了上述四种基本的数据库类型之外,还有多种混合型的数据库形式特别是随着多媒体技术的迅速发展和广泛应用,将多媒体数据结构结合为一体,并统一进行存取、管理和应用的多媒体数据库已经问世.,5、网上其它科技信息,Internet上除了网上图书信息、电子期刊、专利信息、数据库信息外,还有大量的会议信息、科技政策法规、学位论文、技术标准、产品样本目录、

27、科技报告、统计数据、科技新闻、组织机构、电子论坛、通讯讨论组和数据库等,这些资源的实用性也很强。,三、常见网络数据库检索系统,1.Ei 美国工程索引2.SCI Expanded( 科学引文索引扩展)3.ISI Proceedings (科学会议录索引)4.CSSCI (中文社会科学引文索引)5.ASTP ( 威尔逊应用科学与技术数据库)6.CSA (剑桥科学文摘)7.OCLC First Search(联机计算机图书馆中心),常见网络数据库检索系统,8.PQDD(国际学位论文文摘) 9.USPTO(美国专利与商标办公室) 10.CNKI11.维普信息资源系统12.万方数据资源系统13.其他数据

28、库资源,1.Ei 美国工程索引,美国工程索引(Ei),由美国工程信息公司制作而成,收录报道了世界上有关工程技术方面的主要文献,包括物理、化学、机械、工程等各方面内容. Ei Compendex Web是工程索引的网络版,包括光盘版Ei Compendex和Ei Page One两个数据库的内容Ei Compendex Web是通过Ei Village(工程信息村)基于因特网提供信息检索服务,Ei 美国工程索引,Ei Village是美国工程信息公司(Engineering Information Inc)1995年推出的一个网络信息集成服务站点 1998年4月,Ei Village在我国清华大

29、学图书馆设立了镜像站点,目前,我国已有二十多家高校图书馆购买了网络使用权。 凡购买使用权的高校校园网上的每个IP机都可以通过教育科研网直接访问清华大学的Ei Village镜像服务器,2.SCI Expanded( 科学引文索引扩展),SCI Expanded网络数据库可通过ISI Web of Science进行检索Web of Science中也包括三种引文数据库艺术与人文引文索引Arts & Humanities Citation Index科学引文索引扩展Science Citation Index社会科学引文索引Social Science Citation Index,3.ISI

30、Proceedings (科学会议录索引),ISI proceedings是美国ISTP网络版,由美国科技信息所(Institute forScientific Information,简称ISI)编辑出版 ISI Proceedings包括以下两个子数据库:科学技术会议录索引 ISTP社会科学及人文科学会议录索引Index to Social Science & Humanities Proceedings,ISSHP,4.CSSCI(中文社会科学引文索引),CSSCI是中文社会科学引文索引(Chinese Social Sciences Citation Index)的简称,它是由南京大学

31、中国社会科学研究评价中心开发研制的数据库,用来检索中文社会科学领域的论文收录和文献被引用情况。,5.CSSCI(中文社会科学引文索引),CSSCI 2000年、2001年度数据库收录期刊共收录管理学、马克思主义、哲学、宗教学、语言学、中国文学、外国文学、艺术学、历史学、考古学、经济学、政治学、法学、社会学、民族学、新闻与传播学、图书情报与档案学、教育学、体育学、统计学、心理学、社科总论、高校综合性社科学报、人文、经济地理、环境科学等社会科学领域的中文期刊419种,另加港台澳地区及海外华文期刊16种,6.ASTP(威尔逊应用科学与技术数据库),ASTP是威尔逊应用科学与技术(Applied Sc

32、ience & Technology Plus)数据库的缩写,由美国ProQuest Information and Learning公司出版 该数据库主题涉及范围包括:计算机科学、工程技术、物理学等收录科学技术领域内重要的学术期刊769种,7.OCLC First Search,OCLC(Online Computer Library Center)(联机计算机图书馆中心),总部在美国俄亥俄州都伯林,是世界上最大的提供文献信息服务的机构之一它是1967年由美国大学校长们发起成立的,旨在实现图书馆文献信息资源的共享,减少获取文献信息的费用 1979年推出的馆际互借服务迄今已有6600多个图书馆

33、使用,互借达1.05亿次,OCLC First Search,First Search Service是OCLC于1992年推出的,它是全世界所有联机系统中使用量最大的系统,现已被17000多个图书馆使用 目前系统可检索80多个数据库,其中30多个数据库可检索全文,总计包括7500多种期刊的联机全文和3000多种期刊的联机电子映像,达900多万篇全文文章,涉及到各个学科领域 我国CALIS(中国高等教育文献保障系统)采用年订购的方式购买了OCLC基础组的11个数据库的使用权,211的61所高校可以免费检索,8.CSA(剑桥科学文摘),CSA是(Cambridge Scientific Abst

34、racts)的简称,它由美国一家著名的私人信息公司编辑出版目前CSA通过因特网可提供70多个数据库的检索服务,内容范围包括生命科学、环境与水科学、计算机科学、材料科学与工程、航空航天以及人文社会科学。,9.PQDD(国际学位论文文摘数据库),PQDD(ProQuest Digital Dissertations)是由美国Bell & Howell信息学术公司(Bell & Howell Information and Learning)提供的“国际学位论文文摘”数据库的Web 版,它是目前世界上独一无二的最具权威性的博士、硕士学位论文检索数据库,主要收录来自美国、加拿大和欧洲1000多所大学的

35、博、硕士论文的题录、文摘共160余万篇。该数据库每周更新一次数据,每年大约新增47000篇博士论文和12000篇硕士论文,10.USPTO美国专利与商标办公室,USPTO是美国专利与商标办公室(United States Patent and Trademark Office)的简称,通过因特网提供书目和全文专利数据库检索,是非常重要的专利信息资源该数据库收录的美国专利的时间范围从1976年1月1日起到当前最近一个星期(每周更新一次数据,一般是在周四) 上网用户可免费检索该数据库,并可浏览检索到的专利的题目、文摘及其包括附图在内的专利说明书等信息,11.CNKI中国知识基础设施工程,中国期刊网

36、全文数据库是CNKI知识创新网中最具特色的一个文献数据库。CNKI即中国知识基础设施(China National Knowledge Infrastructure)工程,是由清华同方光盘股份有限公司、中国学术期刊(光盘版)电子杂志社、光盘国家工程研究中心等单位,于1999年6月在中国学术期刊(光盘版)(CAJ-CD)和中国期刊网(CJN)全文数据库建设的基础上研制开发的一项规模更大、内容更广、结构更系统的知识信息化建设项目,12.维普信息资源系统,重庆维普资讯有限公司研制开发的网络信息资源。维普资讯有限公司是科学技术部西南信息中心下属的一家大型的专业化数据公司。自1989年以来,一直致力于报

37、刊等信息资源的深层次开发和推广应用收录有中文报纸1000种,中文期刊12000种,外文期刊4000种,拥有固定客户2000余家,13.万方数据资源系统,万方数据资源系统(ChinaInfo)是北京万方数据股份有限公司在中国科技信息研究所数十年积累的全部信息服务资源的基础上建立起来的,形成以科技信息为主,集经济、金融、社会、人文信息为一体,实现网络化服务的信息资源系统,14.其他数据库资源,各大高校图书馆一般都提供各自购买的数据库资源,在校园网通常可以免费使用很多数据库检索系统采用一站式的跨库检索方式,便于用户使用。主要有: 上网图书馆书目数据库的利用。 如:北京图书馆公共检索服务系统的网址为:

38、 http:/ 如:中国数字图书馆的网址为: http:/www.d- 。 现代数据库内容涉及几乎所有知识领域据国家科学技术部统计,目前世界文献信息主要包括十大类型:期刊、研究报告、会议文献、政府出版物、标准文献、专利文献、产品样本、技术档案和学位论文。现有数据库中均已涵盖,但我国数据库的规模和数量都略显不足.,第三节搜索引擎,一、搜索引擎的定义,搜索引擎是专门提供信息查询服务的网站安装在其服务器上的一种能在网上漫游并搜集它所得到的信息,同时自动生成本地索引的软件。它是因特网上最为有效的信息导航工具,是网上冲浪的得力助手。由于这种服务都是一些著名的站点提供的,所以有人直接称这些站点即为搜索引擎

39、。在万维网中,也有人把装有这种软件的WWW服务器视为搜索引擎。他主要分为:,单搜索引擎:用于检索的单个搜索引擎,如:百度、google 多搜索引擎:多搜索引擎是一个搜索引擎包含多个单搜索引擎,其作用是将输入的检索词在所包含的多个单搜索引擎中进行查找,并将命中的搜索引擎和其查到的页面数列出,帮助用户选择合适的搜索引擎。 如:网址之家,二、搜索引擎的发展历史,搜索引擎的起源Archie,所有搜索引擎的祖先,是1990年由蒙特利尔的McGill University三名学生发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Arch

40、ie。 Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。,早期的另一个搜索工具Gopher,由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。 现在这个工具主要用在国外大型图书馆的信息检索上。,第二代搜索:目录式搜

41、索 Yahoo!,1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了(Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。Yahoo!-几乎成为20世纪90年代的因特网的代名词。,好听不好用的元搜索引擎,1995年,一种新的搜索引擎形式出现了元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜

42、索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。,第三代搜索:网页搜索,它们都属于网页自动搜索引擎,有的还带有智能分析或FTP、P2P搜索功能,三、搜索引擎的工作原理,搜索引擎工作原理,搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 搜索引擎至少由三部分组成: 爬行器(即机器人、蜘蛛等搜索程序) 索引生成器(即网页索引数据库)

43、 查询检索器(即用户检索界面) 随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。,搜索引擎的工作原理就向超市,索引生成器(网页数据库),爬行器(蜘蛛),查询检索器(用户查询),因特网,第一步:从互联网上抓取网页,利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。,因特网,第二步:建立索引数据库,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据

44、一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。,第二步:建立索引数据库,搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。,第三步:检索界面的建立,当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因

45、为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。,第三步:检索界面的建立,每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。,四、搜索引擎检索方法,1.分类检索 所谓分类检索就是指利用搜索引擎提供的分类目录,由上级类目逐级向下级类目查询的方式。各网站通过人工分类建立上下级所属类目。这种方式较为直观,便于族性检索,利于查全率,但查准率较低,且各搜索站点分类不一,为使用带来一定困难。搜狐、新浪都属于一种分类搜索。,2.关

46、键词检索 关键词查询是搜索引擎提供的一种快速、高效的查询方式,进入搜索引擎网页后,在关键词查询框中输入想要查询的关键词,然后单击“查询”按扭即可。这种方式便于特性检索,利于提高查准率。 (1)简单关键词查询 (2)逻辑关系查询,搜索引擎检索方法,五、两类搜索引擎及网页搜索引擎,两类搜索引擎的代表,百度、Google、Yahoo等,迅雷、天网Maze等,第一类搜索引擎:网页搜索引擎以Google和百度为代表,1、Google搜索引擎,Google搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。 Google 目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务

47、,使用户能够访问一个包含超过 80 亿个网址的索引。 “Google”来自于数学名词“Googol”, Googol表示一个 1 后面跟着 100 个零。Google Int.使用这一术语体现了公司整合网上海量信息的远大目标。 地址: http:/ 简介:,Larry Page,创始人之一,主管产品的总裁。密西根安娜堡大学的荣誉毕业生,拥有理工科学士学位。他还因其出色的领导才能获得过多项荣誉,以奖励他对工学院的贡献。他曾担任密西根大学 Eta Kappa Nu 荣誉学会的会长。目前他暂时从斯坦福大学计算机研究所博士班休学,其指导教授是 Terry Winograd 博士。Google 就是由Page在斯坦福大学发起的研究项目转变而来的。,Google简介,Sergey Brin,创始人之一,主管技术的总裁。出生于莫斯科,是马里兰大学校本部的荣誉毕业生,拥有数学专业和计算机专业的理学士学位。已取得斯坦福大学计算机专业硕士学位,目前暂时从博士班休学。29 岁的 Sergey 是美国国家科学基金会的奖学金得主。他在斯坦福遇到了 Larry Page 并参与了后来成为 Google 的研究项目。他们于1998年共同创立了 Google。,

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。