1、Information Retrieval(IR),蔡志勇 中国化工信息中心2006年8月,网络信息检索,基础知识Internet 网上的主要科技信息资源 国家科技图书文献中心网络服务系统,信息源,在图书情报领域,信息源被解释为“人们在科研活动、生产经营活动和其它一切活动中所产生的成果和各种原始记录,以及对这些成果和原始记录加工整理得到的成品”,存在形式,记忆: 口头信息源 非文献信息源实物: 实物信息源文献: 文献信息源,文献信息源,文献是“记录有人类精神信息的、且便于存贮或传递的人工固态附载物”。,按文献生产加工层次划分的文献形式,一次文献二次文献三次文献,一次文献,专著、报纸、期刊、专利
2、文献、标准文献、会议文献、样本等成品文献 人们对自然和社会信息进行首次加工(固化)而成的文字记载 内容上是分散的、无系统的 不便于管理和传播,二次文献,目录、书目、索引、文摘 对一次文献进行再加工,通过整理、提炼和压缩 按其外部特征(题名、作者、文献物理特征)和内容特征序化 一次文献特征的汇集,三次文献,专题报告、综述、进展以及手册、百科全书、年鉴 利用二次文献,选择有关的一次文献再加以分析、综合 系统性、综合性、知识性和概括性 高效率地了解某一领域的状况、动态、发展趋势和有关情况,主要的一次文献信息源,图书 期刊 报纸 专利文献 标准文献 产品样本,会议文献 “灰色文献” 档案文献 科技报告
3、 政府出版物 学位论文,其他信息来源,解剖分析实物样品参加会议参观考察学术交流引进技术外贸往来电视、广播,网络信息源,利用网络是当今获取信息的最主要途径(首选) 无时间和空间限制 文字、图像、影视、声音等多种媒体 数据库、全文文本、电子函件、文件传输、电子布告、电子论坛等多种服务人工智能、专家系统、超文本、友好界面等检索技术 服务内容、方式、深度、广度、效果和效益,文献检索基础知识,文献信息检索 用户利用文献信息检索语言在文献信息检索系统(工具书、印本文摘、数据库、网站、搜索引擎等)中,通过检索途径:如题名、著者、分类号、主题词、关键词、ISSN、ISBN等,进行所需文献、信息的查找。,书目检
4、索(Bibliography retrieval),文献信息检索类型,数据库内存储的是书目、索引、文摘等二次文献。用户检索到是某主题的一系列文献条目(有文献题名、出处、收藏机构),据此再查找原文,数据检索(Data retrieval),对数据库进行数据或数字资料检索,如科研数据、统计数字、化学分子式等,事实检索(Fact retrieval),或称事项检索。查找专门的事实材料,如名人、机构名录、产品等,全文检索(Full-text retrieval),(1)对原始文献检索(2)用检索词在数据各字段中进行对应扫描和查找,图象检索(Graphic retrieval),以图象、图形或图文信息为
5、检索内容的信息查询,多媒体检索(Multimedia retrieval),以文字、图象、声音等多媒体信息为检索内容的信息查询。通过此检索,各种信息实时集成和处理,使检索界面有声有色、交互友好,检索结果图文并茂、丰富多彩,检索语言是文献信息资源系统(数据库、网络信息等)中标识和检索文献信息的计算机识别语言。,文献信息检索语言,题名,著者,序号,引文,分类检索,主题检索,关键词检索,从文献外部特征进行检索,从文献内部内容进行检索,分类检索语言图书分类法,图书分类法以科学分类为基础,结合文献内容性质及其特征(如地区、时代、形式、体裁等),按照一定 的逻辑体系,区分、组织和检索文献的一种方法。国内外
6、著名的图书分类法有:,美国国会图书馆图书分类法(LC),杜威十进分类法(DC),国际十进分类法(UDC),中国图书分类法,中国图书资料分类法,分类检索特征:(1)分类目录浏览有助于无经验用户充分利用等级体系分类表的长处,从学科专业角度获取所需文献信息(2)能按用户所需扩大或缩小检索范围,并可将检索提问限定在某一类目下,提高查准率(3)能检出检索词的上下文内容,消除同形异义词(4)可进行多语种查询(因分类表采用不依赖语种的标识符号,即使用不同的语种编制的分类表索引,通过分类系统的中介转换可实现多语种检索)(5)促进跨库浏览和检索(6)可分成若个专业表进行学科专业文献信息组织与检索(7)有利于网络
7、信息资源的聚类、代码标识来组织信息。,图书分类法中图法,表1 中国图书分类法基本大类A 马克思主义、列宁主义、毛泽东思想、 N 自然科学总论 邓小平思想 O 数理科学和化学B 哲学、宗教 P 天文学、地球科学 C 社会科学总论 Q 生物科学E 政治、法律 R 医学、卫生。 。K 历史、地理 Z 综合性图书,表2 “N 自然科学总论”的二级类目 0 自然科学理论与方法论 6 自然科学参考工具书 1 自然科学现状、概况 7 自然科学文献检索工具书 。 。 5 自然科学丛书、。 99 情报学、情报工作,中图法是等级分类体系,按照知识概念之间的逻辑关系,逐级组织和检索文献。 中文科技期刊数据库全国报刊
8、索引数据库中国学术期刊全文数据库,中国教育网、“超星“数字图书馆、解放军医学图书馆“医星网”采用中图法进行文献类目组织和检索。,文献检索的基本步骤,明确检索需求,分析检索主题。 选择相应的检索工具或数据库执行检索。 确定执行检索的检索词。 构造检索表达式。 提交检索表达式。 显示与优化检索结果,若对检索结果不满意, 修改检索表达式再次执行检索,直到检索到合 适的结果。,主要内容,文献检索基本方法,布尔检索字段检索二次检索全文检索模糊检索,通过分类,以及 / 或者 对题名、著者、关键词等进行检索,目前常用的检索基本方法主要有:,布尔检索,布尔检索 采用布尔运算符连接检索词进行检索概念的逻辑组配来
9、查询所需文献信息。,布尔逻辑运算符及检索方法,and(与),运算符为“*” 表示同时包含几个检索词的文献信息才是命中结果 检索式=新疆*生态也可选择and与,后直接填写检索词,or(或),运算符为“+” 表示凡含有其中1个检索词或同时包含这几个检索词的文献信息都是命中结果 检索式=新疆+生态也可选择or或,后直接填写检索词,not(非),运算符为“-” 表示含有第1个检索词但又不含第2个检索词的文献信息为命中结果 检索式=新疆-生态也可选择not非,后直接填写检索词,布尔检索,运算符的写法,英文表示:前后词之间要空格符号表示:不用空格有的网站,空格表示“与”,检索范围,全文检索:准确性差字段检
10、索:准确性高,甚至是唯一的,如ISBN、ISSN等。,全文检索,全文检索有两种含义。一种是指在全文文本中查找含有特定字符串数据的信息,各个因特网网站的站内检索系统以及搜索引擎常为此类;另一种是指在数据库的全部字段中检索。专用数据库系统中常为此类。,字段检索,利用文献信息标引项(刊名、题名、作者、机构、关键词、摘要、分类、ISSN、ISBN等)进行相应文献信息检索,检索方法 选择相应的文献信息标引项(字段名),后填写检索词,字段检索,二次检索,二次检索 : 对一个较广的检索结果范围进行再度缩小范围的检索,二次检索方法 在第一次检索结果的基础上再赋检索词,进行二次检索,二次检索,模糊检索与精确检索
11、,模糊:包含关系精确:等于关系适用于字段检索全文检索不适用,有的系统提供有同义词配置功能。如配置了“电脑”与“computer”为同义词后,检索“电脑”,则包含“computer”的文献也会出现在检索结果中。,检索的常用策略 扩检与缩检,扩检与缩检是检索过程中经常面临的问题。用户在检索前应该拟定好扩检与缩检的策略,也就是说,在拟定检索策略时,应该同时考虑如命中文献太少或太多时如何处理的办法。,扩检,扩检是指初始设定的检索范围太小,命中文献不多,需要扩大检索范围的方法。扩检的方法主要可以有以下几种: 概念的扩大 范围的扩大 增加同义词 年代的扩大。,缩检,缩检是指开始的检索范围太大,命中文献太多
12、,或查准率太低,需要增加查准率的一个方法。缩检与扩检相反,即概念的缩小、范围的限定、年代的减少等。此外,还可以通过以下方法进行限定: 核心概念的限定 语种的限定 特定期刊的限定,主要内容,截词检索,不同网站不同:?、%、$提高查全率:如coat%,代表coat、coats、 coating、coated、coatings等用于某种不确切的情况公开(告)号 =EP 00001494 $,位置检索,and :任意位置空格或引号:词组比较:“environment protection” environment and protection,IR 文献检索基本知识 核心期刊,科技期刊经历发展、巩固、
13、竞争、淘汰过程后,出现一批面向某学科、刊载该学科文献信息量最大、质量很高的期刊,称其为“核心期刊”。,核心期刊指的是刊载与某一学科(或专业)有关的信息较多,且水平较高,能够反映该学科最新成果和前沿动态,受到该学科读者特别关注的那些期刊。,中文核心期刊,中文核心期刊要目总揽北京大学图书馆 2004年版,外文核心期刊,外文核心期刊要目总揽北京大学图书馆 2005年版,查找,IR 文献检索基本知识期刊的影响因子,期刊的影响因子(Impact Fact)E. Carfield 1972年提出 期刊的影响因子是国际通行的衡量期刊质量的一个定量指标。通常, 期刊的影响因子越大,它的学术影响力和作用也就越大
14、。期刊的影响因子: 该刊前2年发表论文在统计当年被引用的总次数 前2年发表论文总数,外文期刊的影响因子,印本工具书JCR(Journal Citation Reports ),ISI Journal Citation Reports (Science Edition) 网络数据库,中文期刊的影响因子,中国科学引文库(中国科学院文献情报中心),中国知网,http:/ of the publication board AD报告:ASTIA(美国武装部队技术情报局 ) Document/Accessioned Documents DOE报告:department of energy 美国能源部 NA
15、SA报告:美国国家航空及宇宙航行局(national aeronautics and space administration,NTIS的检索,NSTL网:1990年后(1978年后的可索取原文)NTIS网站:小部分原文Dialog联机检索: 文档号 6(1964-),NTIS网,主页:National Technical Information Service 1990-简单检索高级检索词组检索:加引号,Information Bridge,DOE(美国能源部)的信息之桥 可以方便快捷的进行全文的免费下载(1995-) 主页:http:/www.osti.gov/bridge/index.j
16、sp,一次文献资源标准,种类国际标准:ISO、IEC区域性标准:ECMA(欧洲计算机制造商协会)国家标准:GB、ANSI(美)专业标准:ASTM(美国材料与试验协会)企业标准,各国标准代号,ANSI、BS、CSA、NF、DIN、JIS美、英、加、法、德、日Dialog文档号:92,NSTL中国标准服务网 (),企业标准,企业网站河北东华化工集团 利用搜索引擎 Q/JDH16-2003,一次文献资源图书、报纸,化学工业出版社http:/ RTECS等)厂商名录,信息采集方法-门户网站,化学:ChINhttp:/ 学科门户网站国家科学数字图书馆,数理科学学科门户网站化学学科门户网站资源环境门户网站生命科学门户网站图书情报门户网站微生物特色学科信息门户青藏高原特色学科信息门户长江流域生态特色学科信息门户天然产物和天然药物特色学科信息门户科技政策特色学科信息门户http:/ :http:/ 参考咨询栏目 每周二下午1:30-4:30,