1、第二章信息检索模型第二章信息检索模型* 信息检索模型 1信息检索 信息检索, 是一门研究从一定规模的 文档库 中找出满足 用户需求 的信息的学问,它指的是对非结构化或半结构化信息的检索,半结构化信息检索人们通常称为文本信息检索,而非结构化信息检索一般指多媒体信息检索。 信息检索的 本质 :将用户的信息需求与信息资源进行匹配,将匹配结果返回给用户。 信息检索的基本原理: 用户通过一系列关键词来阐明自己的信息需求,信息检索系统则检索与用户查询最为匹配的文献,同时借助某种相关性指标对检索出的文献进行排序。* 信息检索模型2信息检索模型概述 1、信息检索模型的发展历史 分为以下几个阶段: 20世纪 5
2、0年代,基于数学的信息检索模型。 20世纪 60年代, Bar-Hillel提出了将布尔逻辑思想应用到计算机信息检索当中的可能性。 经典的信息检索模型:该模型是在以往模型的基础上发展起来的。 20世纪 80年代,以逻辑学专门技术和关系学的信息科学技术相结合而形成的。被称为 “非经典信息检索模型 ”。* 信息检索模型3 2、信息检索模型的定义信息检索模型, 就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。 3、信息检索模型的分类 按照用户查询信息目的的不同 ,可以分为检索型和浏览型。检索型又
3、可分为基于内容的检索模型和基于结构的检索模型。具体分类如下图:* 信息检索模型4* 信息检索模型5* 信息检索模型6 从传统应用上来分,又可分为经典模型和非经典模型概率模型 概率论模型,亦称为二值独立检索模型。 概率模型是一种基于概率论原理的用以解决相对不确定性的信息检索的信息检索模型。 信息检索的概率模型是信息检索的经典模型,在概率的框架下解决 IR的问题,这种检索模型是基于一个文件与提问式的相关度是高于还是低于非相关度的概率来进行文档检索的检索方法。* 信息检索模型7概率模型 1、概率模型的基本思想 用户提出了查询,就有一个由相关文档构成的集合,该集合 只包括与查询完全相关的文档 而不包括
4、其他不相关的文档,称该集合为理想结果集合,记为 R。如果知道 R的特征,就可以找到所有的相关文档,排除所有的无关文档。因此, 可以把查询看成一个寻找 R的特征的过程。* 信息检索模型8概率模型 2、概率模型的过程在第一次查询时并不知道 R的特征,只能去估计 R的特征来进行查询。第一次查询完成后,可以让用户判断一下检索到的文档哪些是相关文档,根据用户的判断,可以更精确地估计 R的特征。然后系统利用该信息重新定义理想结果集合的概率描述;重复以上操作,就会越来越接近真正的结果文档集。 * 信息检索模型9估计 R的特征 进行检索 用户判断* 信息检索模型10概率模型3、相关概念 贝叶斯定理: 词条的独立假设: P(AB)= P(A) P(B) 当且仅当 A 与 B 相互独立 . 若文档中的各个索引词相互独立,则有 P(Dj)=P(k1)P(k t)