1、 信息检索原理与技术n 本讲主要内容n 第一节检索的基本原理n 第二节计算机检索原理和特点n 第三节检索主题词的确定n 第四节检索程序第一节、检索的 基本原理信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择,是两者匹配 (match)的过程。一方面是用户的信息需求,一方面是组织有序的文献信息集合, 信息检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出 (search, locate, hit) 相关的信息。分为文献检索、数据检索和事实检索三种信息检索类型。匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选
2、出符合要求的信息。信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:1、信息的特征一篇文章、一本书、一份报告等一般都有以下特征:一、外表特征 :题目、作者、作者工作单位,专利和科技报告还有专利号或报告号等,这些可以表征一篇特定文献的特征可以在文献的封面或扉页,即不打开书本,或不看文献的具体内容就可以确定一篇文献。二、内部特征 :假如我们深入到文献内容中间,则可以发现还可用另外两种方法来表征它:a.一般 , 一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的频率较大。以前的研究表明,无论哪一种类型的文献,若对文献中出现的词进行频率统计的话,
3、会发现所有的词可分为三类i.文献中出现频率最高的词是冠词、介词和连词等,即其本身没有具体含义的词,如 a、 an、 the、 this、that、 or、 and、 in、 on、 with等;ii.绝大部分词在文献中出现的频率较低;iii.在文献中出现的频率既不高也不低的词,在文献中约 3-20个之间,这些词恰恰是与文献的主题相关度较大的词,我们称之为文献的主题词或关键词 。b.另外 ,一篇文献还可以按照各种自然科学和社会科学的分类方法进行归类,如中图法:O 数、理、化 O1 数学 O12初等数学 O123初等几何 特征外表特征 主 题 特征 内容特征 分 类 特征标识标题 、作者、作者工作
4、 单 位主 题词 、关 键词文摘、 说明、全文分 类 号对应精确 对应 模糊 对应 模糊(精确) 对应模糊 对应2、特征对应关系整序方法(即编排方法)外表特征内部特征文献篇名作者姓名 (含团体作者)等等分类 (表 )主题 (词表)时序、地序法、代码等3.情报源根据特征标引、整序、编排n 1)根据文献的外表特征组织文献:n ( 1)按文献的 名称 组织文献信息:以书名、刊名、篇名等的字顺或音序组织排列文献。n ( 2)按文献创 作者 的名称组织文献信息:以作者、译者、编著等责任者的姓名或团体责任者名称的字顺或音序组织文献信息。 n ( 3)按文献的特定 代码 组织文献信息即以代码特有的顺序号(如专利号、技术标准号、 ISSN、 ISBN、化学分子式等等)组织文献信息,网络信息资源的组织也不例外。3.情报源根据特征标引、整序、编排