1、第二讲 信息检索模型研究陆铭mingler.ccshu.org2内容提要 检索模型的基本概念与分类 布尔模型 向量模型 概率模型 其他模型 结构模型 浏览模型 统计语言建模 国内外检索模型理论研究现状3检索模型的基本概念 1. 信息检索模型 信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法 本质上是对相关度建模 信息检索模型 是 IR中的 核心 内容 之一4检索模型的基本概念 2. 相关概念 标引项 (Index Term) 文档表示成多个 Term的集合 通常用词来表示,但是也可以用其他语言单位来表示 关键词 (key words) 可以看成 Term的一种 标
2、引项的权重 (Weight) 不同标引项作用是不同的 通过权重加以区分5模型 F检索模型的基本概念 3. 检索模型的定义 信息检索模型是描述信息检索中的 文档 、 查询 和它们之间的关系 (匹配函数 )的数学模型。文档D查询Q匹配函数R(qi,dj)6检索模型的基本概念 4. 模型要素 F是一个 框架 ,用以构建文档 ,查询以及它们之间关系的模型 D是一个 文档 集合,通常由文档逻辑视图来表示。可以是一组索引词或关键词。既可以自动提取,也可以是由人主观指定。 Q是一个 查询 集合,是用户任务的表达,由查询需求的逻辑视图来表示。 R(qi,dj) 是一个 排序函数 ,它给查询 qi和文档 dj
3、之间的相关度赋予一个排序值 即 : IR模型由上述三个要素组成R(qi,dj) = F( D, Q )7检索模型的基本概念 5. 文档逻辑视图文档逻辑视图 D:8检索模型的基本概念 6. 检索模型的分类 三种主要类型 基于内容的信息检索模型 结构化模型 浏览型数学模型 基于内容的信息检索模型有 集合论模型 布尔模型、模糊集合模型、扩展布尔模型 代数模型 向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型 概率模型 经典概率论模型、推理网络模型、置信(信念)网络模型9检索模型的基本概念 7. 检索模型分类 结构化模型 非重叠链表模型 临近节点模型 浏览型数学模型 平面文本 (Hypertext)10检索模型的基本概念 检索模型分类信息检索模型检索模型 浏览模型内容模型 结构模型布尔模型向量模型概率模型非重叠链表模型邻近节点模型平坦模型结构导向模型超文本模型