1、1、同句检索是要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制。2、查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度,可用下面的公式表示:查全率=(检出相关文献量/系统中相关文献总量)*100%3、查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度,可用以下公式表示:查准率=(检出相关文献量/检出文献总量)*100%4、漏检率:是指漏检相关文献量与在检索系统中相关文献总量的比率,是衡量信息检索系统漏检文献的尺度,可用下面的公式表示:漏检率=(漏检相关文献量/系统中相关文献总量)*100%5、跨库
2、检索:可同时检索多个平台上的多种资源,输入一个检索式,便可以看到多个数据库的查询结果。6、单库检索:在选定的单一数据库中进行检索。7、经典论文优先:被引用数比较多,或者文章发表在档次比较高的杂志上等经典的、有价值的文献优先排在前面。 8、相关度优先:和查询的条件内容最相关的文献优先排在前面。 9、最新论文优先:发表时间比较新的文献优先排在前面。10、精确匹配:检索结果中包含与检索词完全相同的词语11、模糊匹配:检索结果包含检索词或检索词中的词素12、顺查法是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。13、倒查法从最新时间查找起,直到满足检索要求为止。14、抽查法是针对有关
3、学科的发展特点,抽查某些特定时期的文献信息。15、二次检索是指在前一次检索结果的范围内,继续进行检索。16、定题检索 SDI (selective dissemination of information)查找有关特定主题最新信息的检索。17、回溯检索 RS (retrospective search)查找一段时期内有关特定主题信息的检索。数据库的基本复习:数据收录文献范围,有哪些数据库?二、信息检索的原因1、信息检索是获取知识的途径2、信息检索是科学研究的向导 3、信息检索是终身教育的基础 信息检索语言与检索途径(1)分类语言(2)主题语言(3)分类主题一体化语言(4)代码语言(5)引文语言
4、1、内容特征检索途径(1)分类途径(2)主题途径(3)分类主题途径2、外部特征检索途径(1)责任者途径(2)题名途径(3)序号途径(4)引文途径第二节 事实数据信息的检索工具 一、字典、词典(辞典) 二、百科全书 三、手册 四、年鉴 五、名录第三节 文献检索工具简介一、目录型检索工具;题录型检索工具;文摘型检索工具第四节 索引介绍著者索引、 主题索引(关键词索引) 、 分类索引、 题名索引、其他索引一、 Ei Village 数据库Ei Compendex Web(EI 网络版)INSPEC 是科学文摘 (Science Abstracts,简称 SA)的电子版,专利 (Patents): U
5、SPTO Patents 为美国专利和商标局的全文专利数据库。Techstreet 标准 (Techstreet Standards)世界上最大的工业标准集之一Scirus 是迄今为止因特网上最全面的科技专用搜索引擎二、ISI Web of Knowledge平台信息资源组成Web of Science(WOS)INSPECMEDLINEDerwent Innovations IndexCurrent Contents ConnectISI eSearchISTP(Index to Scientific & Technical ProceedingsISSHP(Index to Social
6、Science & Humanities ProceedingsScience Citation Index ExpandedSocial Science Citation IndexArts & Humanities Citation IndexIndex Chemicus(IC)Current Chemical Reactions (CCR)3个引文数据库2 个会议论文引文数据库2个化学数据库ISI Chemistry什么叫信息在西方英文中 information 一词有情报、资料、消息、报道之意,我国大陆曾译为情报或信息,后经国家有关部门核准,统一译成“信息”。在我国台湾、香港地区,该词
7、被译为“资讯”。教材定义:信息是被反映物的属性再现,信息的属性在于表现它物。也就是说,信息不是事物的本身,而是由事物发出的消息、情报、指令、数据、信号中所包含的内容,是对客观世界中各种事物发出的特征、变化及其相互联系的最新反映。一切事物包括自然界和人类社会都会产生信息。一个完整的信息过程,包括信息的传递、接收、贮存、加工和利用。信息具有以下特征:(1)普遍性(2)时效性:信息在一定的时间内是有效的信息,在此时间之外就是无效信息。而且任何信息从信源传播到信宿都需要经过一定的时间,都有其时滞性。(3)传递性(4)可转换性:信息是可以由一种形态转换成另一种形态。信息一般有 4 种形态:数据、文本、声
8、音、图像。这 4 种形态可以相互转化,例如,照片被传送到计算机,就把图像转化成了数字。(5)可再生性(6)共享性:同一信源可以供给多个信宿,因此信息是可以共享的 ,且不因共享而减少(7)可识别性 :信息是可以识别的,识别又可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试手段的识别。不同的信息源有不同的识别方法。 (8)可存储性:信息是可以通过各种方法存储的。 二、信息检索1、定义(1)从通信的角度认识信息检索:强调信息发布者和接受者之间的通信,是两者关系的变化和延伸。(2)从信息检索过程的角度认识信息检索,这种观点认为,信息检索就是查找出含有用户所需信息的文献的过
9、程。(3)从信息处理的角度认识信息检索:信息检索的基本问题,是如何处理信息和信息的结构。这种认识偏重于信息管理领域,认为信息检索不仅限于传统文献的范围,图像、声音、数据等也都能反映信息,并把信息检索视为计算机科学技术的一个分支。(4)从信息获取方式来认识信息检索分为:直接检索:直接从信息源中获取信息,获取方式直接,但很难广、快、精、准地查到所需的全部信息(5)从实际检索工作的角度出发,对信息检索这样表达: 广义:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。其中包括存与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索
10、工具或检索系统的过程。取即信息查找,是通过某种查询机制从检索工具或检索系统中查找出用户所需的特定信息或获取其线索的过程。 狭义:仅仅指信息查找的过程。即取的环节。间接检索:通过信息检索工具或检查系统获取所需的信息。 (本课程主要学习)克服了直接检索的缺点,在掌握一定检索技巧前提下可以较全面、准确、快速地检索到相关信息。信息存储与检索流程图信息源 选择信息构造检索式相关性判断与反馈初步检索结果集词汇替换检索词与标引词匹配运算信息数据库概念分析信息需求词汇替换概念分析获取所需信息系统检索语言信息存储信息检索信息检索( information retrieval):信息用户为处理解决各种问题,运用检
11、索工具或数据库等情况集合,从中查找、识别、获取相关的事实、数据、知识的活动及过程。2 检索语言又称为情报语言、情报存储和检索语言、信息组织语言,是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种人工语言,是实现人与检索系统对话的交流语言。检索语言可划分为:分类语言、主题语言、分类主题语言、代码语言、引文语言等。3 检索工具 是用来报道、存储和查找信息的工具,通常是指以书本或卡片形式呈现、采用手工方式进行的设施,如检索期刊、书目索引和卡片目录等。检索工具必须具备的条件:(1)对所收录的信息资料的各种特征(包括外部特征和内容特征)要有详细的描述。(2)每条描述记录都要标明可供检索用的标
12、识,以便按某种方式将这些描述记录组织起来,为编织各种索引做准备。(3)全部描述记录要科学地组织成一个有机的整体,使这些记录存放有序,方便存取。(4)具有多种必要的检索手段以满足用户从多种角度查找信息的要求。4、检索系统:由一定的检索设备(如探针、选卡机、电子计算机等)和加工整理并存储在相应的载体(如穿孔卡片、磁带、磁盘等)上面的文档或数据库及其他必要设备共同构成的,具有存储和检索功能的信息服务设施。它往往由多个子系统或模块构成,需借助专门设备进行检索。 穿孔卡片检索系统、缩微品检索系统、光盘检索系统、计算机检索系统、网络信息检索系统三、信息检索的发展 1、第一阶段:完全手工检索阶段 2、第二阶
13、段:半机械检索系统-机电、光电检索系统的发展阶段 3、第三阶段:计算机检索系统的发展阶段 4、第四阶段:基于 Internet 的网络化检索系统阶段二、 信息资源的分类:1、信息源可分为自然信息源和社会信息源。自然信息源广泛存在于自然界中,是物质运动和生物生存活动的结果。如山川、土地、气候、能源、动物、植物、微生物等,它们是人类生存最基本的自然环境和物质条件,是自然信息的发生源。社会信息源则存在于人类活动中,是社会的直接产物。无论是自然信息源还是社会信息源,其开发利用均在社会中进行,社会信息源是信息源的主体。 2、按信息资源所依附的载体划分 (1)体裁信息资源:以人体为载体并能为他人识别的信息
14、资源。按其表述方式又可分为口语信息源和体语信息源。口语信息源是人类以口头方式表述但未被记录下来的口语信息,如:谈话、讲课、讲演、讨论、唱歌等。体语信息源是以人的体态为载体表述出来的信息资源,如:表情、手势、姿态等方式表述的体语信息。 (2)实物信息资源:以实物为载体的信息资源。又分为自然实物信息源与人工实物信息源。如:化石、产品、样品等。 (3)文献信息资源:以文字、图形、符号、声频、视频等发生记录在各种载体上的知识和信息资源。 (4)网络信息资源:以网络为纽带连接起来的信息资源和以网络为主要交流、传递、存储的手段与形式的信息资源。 3、按信息资源传递的范围划分: (1)公开信息资源:又称共享
15、信息资源或白色信息资源(white information) ,指公开发行、流通和传递的信息资源,其蕴涵的信息人人可以使用。一般来说,公开信息资源的数量最大,而且能够作为信息商品进行流通领域。 (2)半公开信息资源:又称灰色信息资源(grey information) ,指非公开发行、流通和传递,从常规途径难以获取的信息(内部信息) 。这类信息出版量小,发行渠道复杂,流通传递范围有限,不易收集。例如:内部的刊物、技术报告、会议资料等。 (3)非公开信息资源:又称黑色信息资源(black information) ,指人们未破译或未被识别的,也指处于保密状态的信息。例如:考古发现的古老文字、未解
16、密的政府文件、内部档案、个人日记、私人信件等。 4、信息可分为可检信息和不可检信息,自然信息均属于不可检信息。三、文献信息资源1、按信息资源所依附的载体的物质形态划分(1)刻写型:包括手稿、日记、信件、原始档案、碑刻等。(2)印刷型:其优点是便于直接阅读、使用方便,其缺点是较笨重、存储密度低、收藏占用空间大、加工保存等花费人力物力大、识别和提取难以实现机械化和自动化。(3)缩微型:如缩微胶卷、缩微胶片等。其优点是存储密度较大、体积小、便于收藏保存和远距离传递。缺点是不能直接阅读、需借助缩微阅读机或阅读复印机才能使用。缩微型一般针对于数量大、利用率低但又有较大保存和利用价值的信息资源。(4)声像
17、型:如唱片、录音带、录像带、幻灯片、电影片、多媒体资料等。其优点是可以闻其声、观其形,直观而真切,给人以生动鲜明的印象。其缺点是制造成本较高,且需要借助于一定的设备才能使用。5)电子型:其优点是存储密度高,读取速度快,更新及时,并利用电子手段随时对内容进行增、删、改,可以高速度、远距离传递信息,具有交互性,便于信息交流和共享。 电子文献种类很多,按出版类型划分有电子教科书、电子专著、电子工具书、电子杂志、电子报纸、电子版书目数据、计算机软件等。 按电子文献载体形式划分其类型有磁性型文献、光盘型文献和网络型文献。 按信息结构组织形式划分有文本型、多媒体型、超文本型及超媒体型。2、按信息资源的加工
18、深度和结构等级划分(1)零次文献:指未经过任何加工的原始文献。如:实验记录、手稿、日记、原始录音、原始录像、谈话记录。(2)一次文献:未经加工或粗略加工的原始信息资源,以本人的研究成果为基本素材而创作的文献,具体、详尽和系统化。如期刊论文、专利文献、科技报告、会议录、学位论文等等。 (3)二次文献:它是将大量分散、零乱、无序的一次文献进行进行加工、整理、标引、著录、浓缩,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。如:目录、题录、索引、文摘。具有报道和检索功能。(4)三次文献:通过二次信息资源提供的线索,对某一范围内的一次信息资源进行分析、研究、加工而成的信息资源,
19、它包括综述、述评、专题情报研究报告、百科全书、年鉴、指南、手册、词典等。一次文献是二次文献和三次文献的基础,是文献检索的主要对象;二次文献具有浓缩性,是一次文献的简略及有序化,是文献检索的工具;三次文献具有综合性,既是检索对象,又可提供一定的检索途径与检索手段。总之,文献经过加工、压缩,从零次信息到三次信息,使科技信息由分散到集中,由无序到有序,由无组织到系系统化,由博而精的对知识信息进行不同层次的加工的过程。3、信息的不同出版类型划分(1)图书:包括专著、教科书、各种科普读物及专业参考工具书等,特点是:内容系统、成熟、定型、信息经筛选,可靠性强,出版周期长,更新速度慢,从检索角度,图书一般不
20、作为主要检索对象。(2)期刊:定期或不定期刊行的连续出版物,如杂志、年度报告、年鉴、丛书、学会的会议录、学报和纪要等,特点是:数量大、品种多,内容丰富多样、出版周期短、报道速度较快、发行、流通面很广泛,连续性强,伴随着相应的学科领域发展前进。职能:记录正式的公开的科学技术活动,传播科技信息的主要工具。(3)科技报告:又称研究报告、报告文献。大多与政府的研究活动、国防及尖端科技领域有关,发表及时,课题专深,内容新颖、成熟,数据完整,且注重报道进行中的科研工作,是一种重要的信息源。查寻科技报告有专门的检索工具。特点: 反映新的科研成果迅速。内容多样化。保密性。报告质量参差不齐。每份报告自成一册,装
21、订简单,一般都有连续编号,出版发行不规则。(4)会议文献:在学术会议上宣读和交流的论文、报告及其他有关资料。会议文献的特点是传递情报比较及时,内容新颖,专业性和针对性强,种类繁多,出版形式多样。它是科技文献的重要组成部分, 同一会议上的文献论题集中、新颖、丰富、专深、学术性强,一般是经过挑选的,质量较高,能及时反映科学技术中的新发现、新成果、新成就以及学科发展趋向,是了解各国科技发展水平和动向的重要文献来源。会议文献没有固定的出版形式,有的刊载在学会协会的期刊上,作为专号、特辑或增刊,有些则发表在专门刊载会议录或会议论文摘要的期刊上。一些会议文献还常常汇编成专题论文集或出版会议丛刊、丛书。还有
22、些会议文献以科技报告的形式出版。此外,有的会议文献以录音带、录像带或缩微品等形式出版。(5)专利文献:专利文献是各国专利局及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。作为公开出版物的专利文献主要有:专利说明书、专利公报、专利文摘、专利索引和专利分类表等。特点是:内容具体、可靠、详尽,具有新颖性、创造性和实用性。能反映科学技术最新的水平,大量重复,增加用户信息识别和去掉重复的负担。(6)技术标准和规范:对工农业产品和工程建设的质量、规格、参数及其检验方法等方面所作的技术灰顶,特点是:制定、审批有程序,适用范围明确专一,叙述严谨,可靠性和现实性,新陈代谢频繁。(7)政府出版物:
23、政府出版物是由政府机构制作出版、或由政府机构编辑并授权指定出版商出版的文献。可分两类:一类是行政性文献(包括宪法、司法文献),主要涉及政府法律、经济方面的国会和议会记录、议案、决议、司法资料、听证记录、法律、法令、规章制度、政策、调查统计资料等;另一类是科学技术文献,主要指政府部门出版的科技报告、标准、专利文献、科技政策文件,公开后的科技档案、经济规划、气象资料等。 政府出版物的内容涉及人类生活的各个领域:政治、社会、经济、财政、工农业生产、教育、历史,也有自然科学和应用科学的各个领域。政府出版物是了解一个国家方计、政策、科学技术和经济、生活现状的权威性信息来源。特点:政策性、综合性、指导性强
24、,对经济、科技发展政策导向明显、可靠。 (8)学位论文:学位论文是指为了获得学位,要求被授予学位的人所撰写的论文。根据中华人民共和国学位条例的规定,学位论文分为学士论文、硕士论文、博士论文三种。特点:质量参差不齐,内容专深,有独到见解,较难获取。(9)产品资料:产品目录、产品说明书、产品样本等,是对产品的性能、结构、原理、用途、使用方法、技术规范及产品规格等进行描述或说明的文献。特点:图文并茂,形象直观,出版及时,更新迅速,反映的技术信息可靠。(10)技术档案:在生产或科研过程中形成的,是具体工程和研究对象的技术文件的总称,包括任务书、技术经济指标、研究计划、方案、试验设计、实验记录、调查材料
25、、总结报告等应入档的资料。它是生产和科研中用以积累经验、吸取教训和提高质量的重要依据,具体较高的参考价值。技术档案有一定的保密性,一般在内部控制使用。(11)报纸:报纸指以刊载新闻和新闻评论为主,通常散页印刷,不装订、没有封面的纸质出版物。有固定名称,面向公众,定期、连续发行。现在多数报纸每日出版一次或数次,也有每周出版几次或每周出版一次的。特点:传播信息快,传播信息量大,现实感强,传播面广,具有群众性和通俗性,是重要的社会舆论工具和信息源。附:美国四大科技报告(AD,PB, NASA , DOE )1、AD 报告 1951 年开始出版。现由美国国防技术情报中心负责收集整理和出版。报告内容以国
26、防部各个合同户的研究报告为主,其报告号冠以 AD,A 原先为 Armed、D 则为 Document 之意,现在则可理解为入藏报告(Accession Document) 。统化,由博而精的对知识信息进行不同层次的加工的过程。2、PB 报告产生于二战结束之后,当时美国政府为了整理和利用从战败国获得的数以千吨计的秘密科技资料,于 1945 年 6 月成立了一个专门的出版局,即美国商务部出版局(Publication Board) ,负责收集、整理、报导利用这些资料3、NASA 报告是美国国家航空航天局 NASA 科技情报处编辑、出版的专业性检索刊物,它是检索航空航天科技报告的重要工具。4、 DO
27、E 报告,是美国能源部 DOE 技术情报中心编辑出版的半月刊。收录能源部部属科研机构和各大学等一切与能源有关的科技文献,以科技报告为主。一 、按检索对象的内容区分:(1)文献检索(document retrieval)文献检索是以文献作为检索对象,查找含有用户所需信息内容的文献,文献是一种相关性检索而非确定性检索,系统不直接解答用户所提出的问题本身,只提供与之相关文献或文献的属性信息与来源指示供用户参考和取舍。所以其检索对象是包含特定信息的各种文献。(2)数据检索(data retrieval)数据检索是将经过选择、整理、鉴定的数值存入数据库中,根据需要查出可回答某一问题的数据的检索。数据检索
28、是一种确定性的检索,即直接提供用户所需要的确切数据。而且检索结果一般也是确定性的,要么是有,要么是没有;要么是对,要么是错。有些数据检索系统不仅能查出数据,还提供一定的运算、推导能力。例如,可以回答“ 某人生于何年何处”;“ 某年的国民生产总值 ”等 。(3)事实检索(fact retrieval)事实检索是检索关于某些客体(如机构、人物等)的指示性描述,或关于某一事件发生的时间、地点、经过等信息并将其查找出来的检索。如:名词术语、概念、定义、理论、方法、公式、事件等。事实检索属于数据,因为事实也是一种数据,即非数值性数据。二、按检索方式区分;(1)手工检索:以手工操作的方式,利用检索工具书进
29、行信息检索。手工信息检索是信息检索的传统方式,已经历经了一个多世纪的发展历程。优点:直观、灵活,便于控制检索的准确性。缺点:查找比较复杂,检索速度慢,工作量较大。(2)机器信息检索:主要是指计算机检索,是通过机器对已数字化的信息,按照设计好的程序进行查找和输出的过程。按机器检索的处理方式分类,有脱机检索、联机检索;按照存储的方式分类,可分为光盘检索、网络检索。优点:大大提高了检索效率和检索的全面性,而且拓展信息检索领域,丰富了信息检索的研究内容。手检和机检的比较 手检:检索点少,通常只有分类、主题、号码、著者等几个途径;查准率高,查全率低,直接性灵活性差,浏览功能强 , 检索效率低 机检:检索
30、点多:除虚词外的所有词汇;查全率高,查准率高,检索效率高;直接性灵活性好,浏览功能差三、按检索对象区分:(1)文本检索:查找含有特定信息的文本文献的检索,其结果是以文本形式反映特信息反映的文献。这是一种传统的信息检索类型,在信息检索中至今占据主要地位。(2)多媒体检索:多媒体是指将声音、图像、通信等在内的多种媒体的功能有机结合在一起,并用某种新媒体代替传统媒体的多种媒体。 多媒体检索是指根据用户的需求,对文字、声音、图像、图形等多种媒体信息进行组织、存储从而识别、查找并获取所需信息的过程。 在因特网上存在着大量的多媒体文献,用户常常需要查找特定的声音、图像、动画等。多媒体文献的信息组织与处理传
31、统文本的处理截然不同,其检索要求和检索途径也别具特色,这是现代信息检索的新课题。四、按检索对象的信息组织方式区分(1)全文检索(full text retrieval)是将存储于数据库中的整本书、整篇文章中的任意内容找出来的检索。它可以根据需要获得全文中的有关章、节、段、句、词等的信息,也可以进行各种统计与分析 。如某个词在文章中出现的次数。 以全文本信息作为检索对象,建立全文数据库,除了具有布尔逻辑检索功能外,还具有文本检索功能,并允许用户以自然语言检索,直接获得原文中的有关章节和段句。 (2)超文本检索(hypertext retrieval):超文本是用超链接的方法,将各种不同空间的文字
32、信息组织在一起的网状文本。 五 、按检索要求区分:(1)强相关检索: 强调检索的准确性,也称作特性检索。这种检索注重查准率。只要检索得到的文献信息能满足用户的需求就行,对于检索结果的数量多少不作要求。(2)弱相关检索:强调检索的全面性,向用户提供系统完整的信息的检索。也称族性检索。这种检索注重查全性,要求检索出一段时间期限内有关特定主题的所有信息。为了尽可能避免漏检相关信息,对于检索的准确性相对要求较低。 要注意的是,这是两种检索要求比较极端的检索类型。实际上是介于两者之间,保证一定的查全率和查准率。六、 按时间跨度区分:(1)定题检索 SDI (selective dissemination
33、 of information)查找有关特定主题最新信息的检索。 其特点:只检索最新的信息,时间跨度小。 定题检索在文献信息库更新时运行,即每当信息库加入新的文献信息时,就用根据用户检索需求拟定的提问检索一遍,查找出特定主题的最新信息,分析整理检索结果并以一定的方式提供给用户。这种检索模式非常适合于信息跟踪,便于及时了解有关主题领域的最新发展动态。(2)回溯检索 RS (retrospective search)查找一段时期内有关特定主题信息的检索。 其特点是既可以查找过去一段时间的特定主题信息,也可以查找最近的特定主题信息。与每个定题检索需要多次运行不同的是,每个回溯检索一般只运行一次,从已
34、有的文献信息库中查找出某个时间内特定主题的信息,并提供给用户。 目前,用户利用最多的是回溯检索,但定题检索发展也很快,科研课题进行中需要定题检索,对企业来说,也非常需要利用定题检索获得和掌握市场的持续信息。七、按检索途径的特点区分(1) 常用法, 工具法,利用检索工具或系统中常设的检索入口查找文献信息的方法。如主题、分类、著者、题名等。其具体操作分为 顺查,倒查,抽查顺查方式是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。倒查方式则相反。从最新时间查找起,直到满足检索要求为止。抽查是针对有关学科的发展特点,抽查某些特定时期的文献信息。通常抓住学科专业发展兴旺的时期,此时的不仅
35、文献发表的数量多,质量也高。(2) 回溯法,引文法,利用文献末尾所附的参考文献或引文为检索入口,查找到越来越多的文献。但这种方法,查找到最后,查找到的文献与检索主题的相关性会越来越差。(3)综合法,综合常用法和回溯法的检索方式。如先用一般检索途径,再利用原始文献后的参考文献作为检索入口,分阶段交替使用两种方法。第一节 信息检索语言与检索途径 一、定义 信息检索语言(retrieval language)又称为情报语言、情报存储和检索语言、信息组织语言,是用来描述文献特征,表达主题提问的一种专门的人工语言,是由给定领域中的一切可用来描述信息内容和信息需求的词汇或符号,及其使用规则构成的供标引和检
36、索的工具。是沟通信息存储与检索两个过程,标引人员与检索人员的桥梁。 信息检索语言是检索系统的语言基础,主要作用是:表达描述信息内容和信息需求;用于信息的组织和整序;用于对检索系统中索引标识或提问标识的规范和控制。 不同的检索系统由于所覆盖的学科领域不同,包含信息资源类型不同,通常采用不同的信息检索语言(例如 EI 与 CNKI 所使用的分类语言) ; 同一个检索系统往往也同时采用多种检索语言,以形成多种检索途径和角度。 (例如:中国知网期刊文献与专利文献所使用的分类语言)二、分类1、根据结构原理划分(1)分类语言(2)主题语言(3)分类主题一体化语言(4)代码语言(5)引文语言(1)分类语言
37、分类语言主要可分为等级体系型分类语言和分面组配型分类语言两种。 等级体系型分类语言:是一种最传统的分类语言,是一个直接体现知识分类和概念逻辑的标识系统。所有类目按照学科专业的等级、层次划分,一一列举,构成一个由总体到个体,由一般到特殊,由全部到局部的分类标识体系。这种结构符合人们通常的研究思维习惯,能保证较高的查全率。目前我国广泛采用中国图书馆分类法 (简称中图法 )进行分类,该分类法由 5 大部类、22 个大类组成 2)主题语言:以主题词来表达信息主题概念的语言,它按事物对文献信息进行浓缩、描述和整序,借用自然语言的语词,作为文献信息和检索提问的内容标示。 特点:按特定的事物集中文献信息,有
38、较强的直接性。 构成原理:利用自然语言中的名词术语,经过一定程度的规范化处理,作为表达文献和提问内容的主题词;利用参照系统中的各种手段,显示主题标识之间的各种关系,并以此把主题词表中的众多主题词相互联系起来,构成多维的主题词体系;利用主题词的字顺序列,按事物的名称来排列和检索文献信息。标题语言:采用规范化了的自然语言,即经过标准化处理的名词术语作为标识,来表达文献所论述或涉及的事物-主题,并将全部标识按字顺排列。 例:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑”这个术语来叙述它的研究对象,第三篇文章用“微机”这个术语来叙述,虽然都表示同一概念,这时就不能直接用“
39、微型电脑”或“微机”来作标题词了,这三篇文章都必须用“微型计算机”作标题词(根据词表决定) 。因为这三个术语是等同概念,如果同时用三个术语来标引,便会导致文献被分散。当然,读者若从“微型电脑”或“微机”入手检索时,都可以在标题词表中看到“见:微型计算机”的参照指示。 关键词语言关键词语言(keyword ):以关键词(从文献题名或文摘以及正文中抽取的,能够表达文献主题并具有实质意义的未经规范化处理的自然语言词汇)作为文献内容标识和检索依据的一种信息检索语言。关键词与其他主题语言的区别在于:前者是没有经过规范处理的自然语言。属于非受控语言。后者是经过规范处理的自然语言,属于受控语言。元词语言:以
40、元词(从文献中抽选出来的,从字面上不可分割的表达最基本的概念单元的词汇)作为主题标识,通过字面组配来表达主题概念的 例:“物理”、 “贸易”就是元词 “知识组织”就不是元词,而要拆分为:知识、组织 元词语言创立了检索时进行组配的后组方式 ,可以用较少的词汇表达几乎无限的主题,但由于元词不象标题词那样采用词组或说明语搭配词语之间的组合关系,其仅为字面组配,因而利用元词检索时错搭配、假联系的现象在所难免,已被淘汰。叙词语言(descriptor):以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主题语言,提高标引的专指性和检索的灵活性。 叙词是经过规范化处理的以基本概念为
41、基础的表达文献信息和检索提问的主题的词和词组。叙词语言对元词语言的单词组配原理,标题语言的词汇规范和参照系统,以及分类语言知识分类的方法进行了继承和发展。 叙词语言的基本原理是概念组配,与元词语言的字面组配有本质区别。前者是词语概念意义的拆分和组合,其本质是语义层次上的组合,后者是词语字面的拆分和组合,其本质是字符层次上的组合。 如:“儿童病理学”用元词为“儿童”和“病理学” 叙词为“儿童”“消化系统病理”、 “内分泌系统病理”、 “呼吸系统病理学 叙词的组配,按照叙词意义之间的语义关系,存在如下几种类型: a.交叉组配:指两个或两个以上语义交叉的叙词之间的组配。 例:“人工林”和“防护林”的组配表达“人工防护林”的主题