第一部分信息检索基础知识.ppt

上传人:ga****84 文档编号:448363 上传时间:2018-10-07 格式:PPT 页数:114 大小:9.47MB
下载 相关 举报
第一部分信息检索基础知识.ppt_第1页
第1页 / 共114页
第一部分信息检索基础知识.ppt_第2页
第2页 / 共114页
第一部分信息检索基础知识.ppt_第3页
第3页 / 共114页
第一部分信息检索基础知识.ppt_第4页
第4页 / 共114页
第一部分信息检索基础知识.ppt_第5页
第5页 / 共114页
点击查看更多>>
资源描述

1、三大中文数据库与搜索引擎使用介绍,姚中平 副教授 ,提要,常用的信息检索技术三大中文数据库使用介绍搜索引擎使用介绍检索的体会,一、常用的信息检索技术,布尔逻辑算符位置算符通配符限定字段限制检索检索式编写与调整,(一)、布尔逻辑算符 简单概念用单概念词表达,复杂概念用简单概念进行组配表达。 1. 逻辑“或”(OR;+)算符 用于并列概念的组配。,B,A,运 载 工 具(28条记录),海 上 运 输(20条记录),A + B = 运载工具+海上运输 = 40 条记录,*计算机通过“或”运算将运载工具文献和海上运输文献共40条记录输出。逻辑“或”可扩大检索范围,提高查全率。,2. 逻辑“与”(AND

2、;*)算符,用于交叉概念或限定关系的组配。,A,B,C,保 险 理 赔(288条记录),海 上 货 运(108条记录),海运货物保险理赔(38条记录),A*B=C=保险理赔*海上货运=海运货物保险理赔(38条记录),*计算机通过“或”运算将A、B两概念中共有的海运货物保险理赔复杂概念共38条记录输出。 逻辑“与”可缩小检索范围,提高查准率。,3. 逻辑“非”(NOT;-)算符,用于从原来检索范围中排除不需要概念的组配。,A,B,A*B=C,C,船 舶 市 场(98条记录),VLCC 船 舶(36条记录),“A”,除VLCC船舶市场外其他船舶市场(80条记录),A-B=“A”=除VLCC船舶市场

3、外其他船舶市场(80条记录),*计算机通过“非”运算将除VLCC船舶外的其他船舶市场80条记录输出。 逻辑“非”可缩小检索范围,提高查准率,但运算要慎重,否则会把有用的文献排除,造成漏检。,注意:,逻辑算符的优先顺序是:先NOT,后AND,最后OR,使用括号“( )”可改变顺序,即先括号内,后括号外。,检索式,查新课题:港口铁路集疏运系统规划及优化方法研究 (港口+码头+口岸+港区)*(铁路+铁道)*集疏运 (港前+港区+港口+码头+口岸)*(铁路+铁道)*(优化+协调+规划)*(DEA+数据包络技术),(二)位置算符 用来规定检索词相互间的邻里关系,包括在记录中出现的顺序和相对位置。,1.:

4、(W):“With” 的缩写。此符左右连接两个检索词且词序不能颠倒,其间不得插入任何词,但可有空格或标点。例如:Radar(W)Plotting 可检索出含有 Radar plotting 一词组的文献。,2.:(nW): “n With” 的缩写。含义同上,但词间可插入n(n=1,2,.正整数)个词。,3.:(N)和(nN): 含义同上两个算符,但两检索词的词序可以颠倒。,(三)截词符“ ?”,“屏蔽”或“截去”检索词中某些字符,利用检索词词干或不完整词形进行检索。,1.非限制型截词:在检索词后加一个“ ?”可查同词干的所有派生词。例如:检索Ship?,可检索到 Ship、Shipping、

5、Shipment、Shipper 等词。,2.限制性截词:a.词干后跟两个“ ? ?”期间夹一空格,表示同词干后最多加一个字符。b.词干后跟几个连续的“? ”表示同词干后可增加等于问号个数的字符数。如:检索“Ship?”可得Shipping、Shipment。c.用问号“ ?”代替检索词中可以变化的字母。如:检索 computeri?ation 可得 computerization、computerisation两词。,检索式,查新课题: Planning and Optimizing Railway System of Collecting and Dispatching in Port(港

6、口铁路集疏运系统规划及优化方法研究) (port? or terminal? or whar? or pier? or dock? or harbor? or jetty or seaport) and rail?)/ti and (Collect? Or gather?)(3n)distribut?(port? or terminal? or whar? or pier? or dock? or harbor? or jetty or seaport) and rail? and (plan? ? or planning? Or program? or Optimiz? Optimal? o

7、r optimum or Coordinat? Or Co()ordinat?) and (DEA or Data()Envelopment()Analysis)/ti,主题概念间的正确组配主题概念之间的逻辑组配逻辑与 AND *逻辑或 OR 逻辑非 NOT ,总结:布尔算符,运算顺序依次为:NOTANDOR(非与或)可灵活运用括号“()”改变优先级,括号内的逻辑式优先执行,二、三大中文数据库使用介绍,中国知网CNKI维普资讯 VIP:中文科技期刊全文数据库万方数字资源,三大中文期刊全文数据库的比较,1.中国知网CNKI,中国知识基础设施工程,简称CNKI工程,是以实现全社会知识信息资源共享为

8、目标的国家信息化重点工程,被国家科技部等五部委确定为“国家级重点新产品重中之重”项目。主办单位:清华大学行政主管部门:国家教育部行业主管部门:国家新闻出版总署利用互联网发行与信息服务的门户网站-“中国知网(WWW.CNKI.NET)”,向全球提供全面的信息服务与技术服务。,资源整合,信息推送,细致专业的学科分类,整合了多种类型的资源,可以进行跨库统一检索,一站式将各种文献资源查找出来,全面系统的调研,提高检索效率。,按学科类别分组可以查看检索结果所属的更细的学科专业,进一步进行筛选,找到所关注的文献。,多种分组方式,按中文关键词分组展示了知识系统,帮助学习者获得领域的全局知识结构;关键词将文献

9、/知识进行聚类,把知识组织成簇,揭示了知识的背景,方便学习和研究;关键词分组比学科导航更细,更深入,更具有时效性,使得文献选择更精细,更准确。,用户通过研究层次分组可以查到相关的国家政策研究,工程技术应用成果,行业技术指导等,实现对整个学科领域全局的了解。,按文献作者分组可以帮助研究者找到学术专家,学术榜样;帮助研究人员跟踪自己已知学者的发文情况,发现未知的有潜力学者。,按作者单位分组帮助学者找有价值的研究单位,全面了解研究成果在全国的全局分布,跟踪重要研究机构的成果,也是选择文献的重要手段。,按文献出版来源分组可以帮助科研人员查到好的刊物,因为好文献大部分都发表在好刊上;可以从总体上判断这一

10、领域期刊的质量,对学者投稿也是很有帮助的。,通过按“研究获得资助”分组,可以了解国家对这一领域的科研投入如何;研究人员可以对口申请课题;国家科研管理人员也可以对某个基金支持科研的效果进行定量分析、评价和跟踪。,按文献发文年度分组,帮助学者了解某一主题每一年度发文的多少,掌握该主题研究成果随时间变化趋势,进一步分析出所查课题的未来研究热度走向。,按来源数据库分组可以获取不同类型的文献。因为数字出版平台通过自动翻译实现了跨语言检索,所以这也是获取英文文献的有效途径。,相关度反映了结果文献与用户输入的检索词相关的程度,越相关越排前,通过相关度排序可找到文献内容与用户检索词最相关的文献,多种排序方式,

11、根据文献发表的时间先后排序。可以帮助学者评价文献的新旧,找到最新文献,找到库中最早出版的文献,实现学术跟踪,进行文献的系统调研。,知网节作用,1 一本系统的专题教科书,2 一个强大的检索平台,发展历史,研究背景,目前进展,研究现状,发展方向,后继研究,一本系统的专题教科书,一个强大的检索平台,脉,专业图书馆设计理念,CNKI收录的所有文献,均按中国图书分类法分成3000多个专业数字图书馆。 读者选择进入某学科专业领域的数字图书馆:既可纵览本学科全部文献内容,又可涉猎本学科相关领域。 各馆一目了然地详细揭示本学科及其边缘和交叉学科的重要研究成果、进展与动态,并可使您了解、掌握重要项目和相关研究人

12、员与机构的研究历史和最新动向。,2.维普资讯 VIP:中文科技期刊全文数据库,重庆维普资讯有限公司是科学技术部西南信息中心下属的一家大型的专业化数据公司,是中文期刊数据库建设事业的奠基人,主要致力于对海量的报刊数据进行科学严谨的研究、分析、采集、加工等深层次开发和推广应用。1989年,维普资讯开发建设了我国第一个期刊数据库中文科技期刊数据库。今天,中文科技期刊数据库收录期刊12000余种,文献总量超过1700万篇,广泛被我国高等院校、公共图书馆、科研机构所采用,成为文献保障系统的重要组成部分,科技工作者进行科技查新和科技查证的必备数据库。目前,该数据库在全国已经拥有2000余家大型机构用户。,

13、高级检索,点击 按钮即可进入高级检索页面。高级检索提供两种方式供读者选择使用:向导式检索、直接输入检索式检索。 向导式检索为读者提供分栏式检索词输入方法。可选择逻辑运算、检索项、匹配度外,还可以进行相应字段扩展信息的限定,最大程度的提高了检准率。,高级检索界面,如何利用数据库特殊检索功能同义词、同名作者,提高查全率和查准率呢?,下面我们来举例说明,同义词:由于学术用语的多样化造成作者在发表论文提取关键词时不会完全统一一致,如关于土豆的论文,也可以提取关键词为马铃薯、洋芋等。这种情形会导致检索这如果仅输入一个关键词进行检索,会造成漏检。为此,中刊库以汉语主题词表为基础,参考各个学科的主题词表,通

14、过多年的标引实践,编制了规范的关键词用代词表(同义词库),实现高质量的同义词检索,提高查全率。 同名作者:同样姓名的作者从事不同领域的研究,提交检索请求后,检索结果并不精确,这为检索者带来了不便。为此,中文科技期刊数据库开发了同名作者检索功能,提高查准率。,(同义词功能图示),例如:勾选同义词功能,在关键词字段输入“CAD”并点击“检索”按钮,可查看到“CAD”的同义词,勾选“CAD系统”并点击“确定”按钮,即可得到“关键词=CAD+CAD系统”的检索结果。,同义词,(同名作者功能图示),例如:勾选页面左上角的同名作者,选择检索入口为作者(或第一作者),输入检索词“张三”,点击“检索”按钮,即

15、可找到作者名为“张三”的作者单位列表,用户可以查找需要的信息以做进一步选择。,同名作者库,同义词功能只适用于三个检索字段: 关键词、题名或题名与关键词 同名作者功能只适用于两个检索字段: 作者、第一作者,注 意,扩展功能,您可以在 的旁边进行相关的同义词、同名作者、分类表、相关机构和变更情况的扩展功能的查询(请注意,在进行这些信息的查询时,必须在前面输入相应的检索词,否则不能进行操作)。查看同义词:点击查看同义词,即可检索出该检索词的同义词,以扩大搜索范围。查看同名作者:点击查看同名作者,即可以列表形式显示不同单位同名作者,用户可以选择作者单位来限制同名作者范围。 最多勾选数据不超过5个。查查

16、看分类表:读者可以直接点击按钮,会弹出分类表页,操作方法同分类检索。查看相关机构:点击查看相关机构,即可显示以该机构为主办(管)机构的所属期刊社列表。 最多勾选数据不超过5个。期刊导航:点击进行期刊检索,可以查看该期刊的详细信息,如曾用刊名记录等,使用户可以获得更多的信息。,扩展检索条件,“扩展检索条件”功能,可以进一步的减小搜索范围,获得符合检索需求的检索结果。点击按钮,弹出对话框,在“扩展检索功能”部分,用户可以根据需要以时间条件、专业限制、期刊范围进一步限制检索范围。,读者在选定限制分类,并输入检索词检索后,页面自动跳转到搜索结果页面,后面的检索操作同快速检索。,读者可在检索框中直接输入

17、逻辑运算符、检索代码等,点击“扩展检索条件”并对相关检索条件进行限制后点击“检索”按钮即可。,检索式输入有错时检索后会返回“查询表达式语法错误”的提示,看见此提示后请使用浏览器的【后退】按钮返回检索界面重新输入正确的检索表达式。扩展检索条件:与“向导式检索”中的“扩展检索条件”同,直接输入检索式检索,分类检索,通过专业的学科分类表,可以选择不同的学科范围进行检索。分类检索相当于传统检索的分类导航限制检索,这里采用的是中国图书馆分类法(第四版)的原版分类体系,分类细化到最小一级分类,满足读者对分类细化的不同要求。,分类检索的操作步骤,学科类别选择直接在左边的分类列表中按照学科类别逐级点开查找运用

18、左边方框中的搜索框对学科类别进行查找定位。这里采用的是模糊查找,如果检索结果有多个,则定位在第一个类别上。学科类别选中在目标学科前的 中打上“”,并点 按钮将类别移到右边的方框中,即完成该学科类别的选中。在所选类别中搜索在选中学科类别以后,在页面上放的检索框处选择检索入口、输入检索条件,即可进行在选中学科范围内的检索操作。,3.万方数字资源,两个信息系统(科技信息系统、商务信息系统)(文摘型)六个全文(学位论文、会议论文、法规全文、标准全文、数字期刊、专利全文)一个外文文献(NSTL,外文文献、外文会议),根据不同字段输入框输入检索词查找,检索结果与初始检索结果一致,也可进行二次检索,检索词输

19、入框,根据字段限定输入检索词查找,检索结果与初始检索结果一致,也可进行二次检索,采用布尔逻辑式进行检索,输入格式参考检索词输入框下的示例,期刊论文,学位论文,会议论文,专利文献,标准文献,科技成果,不同类型文献检索方法一致,其中期刊论文、学位论文、会议论文、专利文献、标准文献等数据库可以查看文摘及全文。科技成果数据库只能查看文摘。,三、搜索引擎使用介绍,Google()百度() 雅虎中国(http:/),常用搜索引擎,搜索引擎使用技巧,1. Google,基本检索:(布尔检索功能)逻辑“与”:检索框中的两个关键词之间用空格隔开则默认为是“AND”(“与”运算)连接。逻辑“非”:用“”(减号)表

20、示,同时要求在减号前保留一个空格。逻辑“或”:用“OR”表示。双引号、连字号、斜线、问号、等号、省略号都可以作为短语的连接符号查找名言或专有名词。指定网域:利用site:可以在某个特定的网站或域中进行搜索。指定文件类型:filetype:文件类型,可以在一类文件中进行搜索,比如,filetype:pdf, filetype:ppt等。,搜索引擎及举要,Google,逻辑与功能,搜索引擎及举要,Google,逻辑或功能,搜索引擎及举要,Google,逻辑非功能,搜索引擎及举要,Google,词组检索,搜索引擎及举要,Google,指定网域,搜索引擎及举要,Google,指定文件类型,搜索引擎及举

21、要,Google其它检索语法搜索的关键词包含在URL链接中:inurl:搜索的关键词包含在网页标题中:intitle:搜索所有链接到某个URL的网页:link:,搜索引擎及举要,Google高级检索功能可以排除某个特定站点的网页(限定网域)可以对检索结果页面的语言类型进行限制(限定语种)可以限定检索结果的时间范围(更新日期)可以限定关键词出现的位置(字词位置)可以检索链向某一个网页的所有页面(键连功能)可以检索与某一个网页相关的所有网页(相似网页检索),搜索引擎及举要,Google,高级检索,搜索引擎及举要,Google,高级检索检索结果,例:高级检索查找2007年我国农村互联网普及率包含全部

22、字词:2007 农村包含以下完整字句:互联网普及率为 网域: 仅 (仅在CNNIC网站中搜索)信息需求类型:直接查找具体数值,权威发布源,Google 高级检索实例,复旦大学文献检索教研室,94,04/15/09,Google 网页高级搜索界面,复旦大学文献检索教研室,95,04/15/09,Google网页高级检索结果,搜索引擎及举要,Google,学术搜索,例:检索2000-2007年有关生物芯片在药物研究领域应用的文献,Google Scholar 学术搜索,中文搜索结果,相关文章/网页检索,该文献多个原文链接网址,被引用次数,文献出处及全文网址,联合目录查询全国图书馆收藏情况,在普通网

23、页中查找论文,运用论文的题名特征中国人在撰写论文时倾向于在题名中使用特定的词语,如“论”、“浅论”、“探讨”、“谈谈”、“刍议”、“试析”等,这些词语构成了汉语论文的第一类特征词:题名特征词。通过在检索式中加入题名特征词,可将检索范围缩小,使论文的命中率提高。例:在GOOGLE中输入“论科技查新”,在普通网页中查找论文,运用论文格式特征看过论文的都知道,一般的论文,都有一定的格式,除了标题、正文、附录,还需要有论文关键词,论文摘要等。其中, “关键词”和“摘要”是论文的特征词汇。而论文主题,通常会出现在网页标题中。例:关键词 摘要 intitle:科技查新 作用,google翻译,2.百度,最

24、大的中文搜索引擎百度,百度的高级搜索,3.雅虎中国,网络目录举要雅虎中国(http:/)雅虎中国既支持目录检索,也支持词语检索。它对网站信息按主题建立分类索引,按字母顺序列出大类,大类下设二级类目,各子类下有大量相关网站信息。这些类目是人工建立的,标引比较准确,因此查准率较高。,网络目录举要雅虎中国(http:/),搜索引擎与目录索引互相渗透,目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。,Google的网页目录查询,http:/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。