1、第三讲信息检索模型研究 2,陆铭mingler.ccshu.org,基于概率统计的IR模型(Probabilistic models),概率模型,3,概率模型,随机现象与随机事件 事件有多种不同的结果,在同样的条件下进行一系列重复试验,每次出现的结果都不能预先确定的事件称为随机事件 随机现象在每次试验中的结果虽然是不确定的,但在大量重复试验下,各种不同结果出现的可能性的大小是具有规律性的 例如,统计大量的新生儿的性别,男女约各占50,多次抛一枚均匀的硬币,正反面出现的次数约各占50 为研究随机现象的统计规律性而进行的试验称为随机试验。用字母来表示。,4,概率模型,随机试验具有下面三个特点 1.
2、 在相同条件下可以重复进行 2. 试验前不能确定出现哪种结果 3. 能够知道可能出现的所有结果 在随机试验中出现的每一个结果,称为随机试验的基本事件。全体基本事件组成的集合称为样本空间。例如,上面举过的例子中, 和 样本空间的子集称为随机事件。因此,随机事件是指随机试验出现的一种结果或几种结果的总和。用A、B、C等表示。 样本空间表示必然事件,空集 表示不可能事件,5,概率模型1. 事件的关系和运算,事件的包含和相等 如果事件A发生必然导致事件B发生,那么称事件A包含于事件B,或称事件B包含事件A,记作 例如,掷一枚骰子, 如果 ,同时 ,则称AB 事件的和 事件A发生或事件B发生,称为事件A
3、与事件B的和,记作AB。 事件A发生或事件B发生,换句话说,就是事件A和事件B至少有一件发生。,6,概率模型,例如:分析下列事件的关系 随机抽查一批产品的质量,记 A抽到三个不合格产品 B抽到两个以上不合格产品 抛两枚硬币,记 C不出现反面朝上 D两个都是正面朝上 解: 事件A发生则事件B一定发生了,所以 抛两枚硬币,不出现反面朝上,即出现两个正面,显然CD,7,概率模型,(3) 以直径和长度两项指标衡量产品的质量,设 A零件直径不合格,B零件长度不合格, E零件不合格, 试用事件A、B表示E 解 事件E发生,表示或者事件A发生或者事件B发生或者事件A、B同时发生,即事件A、B至少有一件发生
4、故 EAB (4) 从一批产品中任意取出2件,A1恰好有1件是次品,A2恰好有2件是次品,试用A1、A2表示事件B至少有1件是次品 解 至少有1件是次品的意思是说,恰好有1件是次品,或者2件都是次品 因此 BA1 A2,8,概率模型,事件的积 事件A和事件B同时发生,称为事件A与事件B的积,记作AB 例如,设C零件的直径合格, D零件的长度合格, F零件合格,试用事件C、D表示F 解 只有零件的直径和长度都合格,零件才算合格,因此事件F发生时,事件C、D都要发生。也就是说,事件C、D同时发生,才表示事件F发生,即 FCD 事件的差 事件A发生而事件B不发生,称为事件A与事件B的差,记作AB,9
5、,概率模型,互不相容事件 如果事件A与事件B不可能同时发生,则称事件A与事件B互不相容或互斥。显然:AB 对立事件与完备事件组 对立事件是一种特殊的互不相容事件。如果事件A与事件B不能同时发生,而事件A与事件B又必发生其一,则称事件A和事件B是对立事件,即事件A是事件B的反面,称为B非,记作 事件A与事件B互为对立事件是说 它们满足AB ,AB 显然,,10,概率模型,重新认识事件的差 事件的差 ,而 可见,事件AB和事件BA是不同的。 如果有n个事件 两两互不相容,而他们的和是必然事件,则称事件 构成一个完备事件组,11,概率模型2. 事件的运算律,12,概率模型3. 例题,对飞机连续射击两
6、次,每次发射一枚炮弹,设A1第一枚击中飞机,A2第二枚击中飞机,试用A1,A2及它们的对立事件表示以下事件: B两弹都击中飞机,C两弹都没有击中飞机,D恰有一弹击中飞机,E至少有一弹击中飞机 解: BA1A2, ,D , EA1A2 其中B与C,B与D,C与D,C与E都是互不相容事件,C与E是对立事件,13,概率模型4. 随机事件的概率,概率的统计意义 随机事件在随机试验中发生的可能性大小的数值称为概率 在条件不变的情况下重复进行n次试验,事件A发生了m次,那么m称为A事件发生的频数,比值 称为事件A发生的频率,用fn(A)表示。 如果当n足够大时,事件A的频率fn(A)在一个常数p(0p1)
7、附近摆动,则称事件A为随机事件,p为事件A在该条件下发生的概率,记作P(A)p 必然事件 P(A)1 不可能事件 P(A)0,14,概率模型5. 概率性质,性质1 对于任一事件A, 这是因为,任一事件A的频数m0,mn性质2 性质3 对于有限个两两互不相容的事件 即推论 如果 则,15,概率模型6. 古典概型,古典概型是指等可能事件的概率模型 如果一次试验有n种可能的结果,且这n种结果出现的可能性都相同,而事件A包含了这n种可能中的k种可能,则事件A发生的概率为P(A)kn,这种概率称为古典概率 例1,掷一枚骰子,求C4,5,6和D4,6的概率 解 掷一枚骰子出现的点数有6种可能,这6种点数的
8、可能性是相同的,属于古典概型 其中C占了3种可能出现的情况,D占了2种可能出现的情况,故P(C)36,P(D)26,16,概率模型7. 贝叶斯(Bayes)定理,贝叶斯定理给出了两个条件概率p(Bi|A)和p(A|Bi)之间的关系贝叶斯定理的例子 三个抽屉分别装有金币和银币 B1: 两个金币 B2: 一个金币和一个银币 B3: 两个银币 随机地选一个抽屉并从中取出一个钱币,假定取出的是一个金币,求同一抽屉中另一个钱币是金币的概率,17,概率模型,第一次取出金币的事件,另一个钱币也是金币条件要求只能选取B1,即要求的是在A发生的条件下,选择抽屉B1的概率: p(B1|A) 在选定抽屉的情况下,取
9、出一个金币的概率 P(A|B1)=1, p(A|B2)=0.5, p(A|B3)=0 选择某一抽屉的概率 p(B1)=p(B2)=p(B3)=1/3 由贝叶斯定理,18,概率模型,概率模型试图在一个概率框架中处理信息检索问题,其基本思想是:给定一个用户的查询,则有一个包含相关文档且不包含不相关文档的集合。设想这个文档集合是一个理想的结果集。给出这个理想结果集的描述,并用于检索。这样,我们可以认为查询的过程是说明理想结果集属性的过程,初始的时候努力的猜测它们是什么,猜测结果我们将产生一个对理想结果集的概率描述,检索出最初的结果集,然后引入用户的交互,改善结果集。,19,概率模型,基本假设 给定一
10、个查询q和文档集中一个文档dj,概率模型试图找出用户对其感兴趣的概率模型假设这个概率只是依赖于查询和文档的表示,进而模型假设文档集中存在一个子集,它使得总体相关概率在集合中的文档被认为是与查询相关的,不在集合中的则被认为是不相关的,20,概率模型8. 模型原型,概率论模型,亦称为二值独立检索模型1976年由Roberston和Sparck Jones提出的经典概率模型。它企图在概率的框架下解决IR的问题给定一个用户查询,存在一个文档集合,该集合只包括与查询完全相关的文档而不包括其他不相关的文档,称该集合为理想结果集合 如何描述这个理想结果集合? 即:该理想结果集合具有什么样的属性?基于相关反馈
11、的原理,需要进行一个逐步求精的过程,21,概率模型9. PRP (Probability Ranking Principle),将信息获取看成是一个过程 用户提交一个查询,系统提供给用户它所认为的相关结果列表 用户考察这个集合后给出一些辅助信息 系统再进一步根据这辅助信息(加上以前的信息)得到一个新的相关结果列表;如此继续。 如果每次结果列表中的元素总是按照和查询相关的概率递减排序的话,则系统的整体效果会最好 概率的计算基于当时所能得到的所有信息,22,概率模型10. 贝叶斯定理,贝叶斯定理 词条的独立假设 P(AB)= P(A) P(B) 当且仅当 A与B相互独立 对一篇文档而言,若文档中的
12、各个索引词相互独立,则有 P(dj)=P(k1)P(kt),23,概率模型11. 模型定义,定义 设索引词的权重为二值的,即: R表示已知的相关文档集(或最初的猜测集),用 表示R的补集。 表示文档dj与查询q相关的概率, 表示文档dj与查询q不相关的概率。文档dj与查询q的相似度sim(dj, q)可以定义为:,24,概率模型,根据贝叶斯定理有,25,概率模型,假设标引词独立,则 这是概率模型中排序计算的主要表达式,26,概率模型,取对数,在相同背景下,忽略对所有因子保持恒定不变的因子,则有,27,概率模型,如何计算上式中的 和 呢 ? 简单假设作为最初的猜测 1) 对所有的索引词ki是恒定
13、不变的,通常取为0.5,即 2) 不相关文档中的索引词ki的分布可以通过文档集中索引词的分布来估计,即 其中,ni表示包含索引词ki的文档数, N表示集合中的文档总数 初始值确定后,根据与查询q相关的大小进行初步排序,取前若干个文档作为相关查询集合 之后通过如下方法进行改进(即开始递归计算),28,概率模型,用V表示概率模型初步检出并经过排序的文档子集 Vi表示V中包含索引词ki的文档数改进 和 的过程如下: 1) 用已经检出的文档中索引词ki的分布来估计 2) 假定所有未检出的文档都是不相关的来估计 即 如此递归重复这一过程,得到理想结果集合,29,概率模型,对较小的V和Vi上述计算会出现问
14、题,如V=1和Vi=0,可做一些改进: 调整因子也可以为ni/N, 即,30,概率模型,概率模型的算法步骤 起始时(只有查询需求,没有检索结果)假设:(1)对所有索引项概率 是常数;(2)索引项在非相关文档集中的分布近似等于在所有文档集中的分布,即:,31,概率模型,令V是初始检索结果的子集,有r个,取自检索结果集中前r个文档,这些检索结果是经过概率模型排好顺序的 令Vi是V中所有包含索引项ki的那些文档,显然Vi是V的子集;为简单起见,直接用V和Vi表示这些集合中的元素数量 修改对概率 和 的计算方法,32,概率模型,为保证数值计算的稳定性,常用下列公式计算相似度:,33,概率模型12. 优
15、缺点,优点 理论上讲,文档按照其与目标集合的相关概率 降序排列 缺点 需要最初将文档分为相关和不相关的集合 所有权重都是二值的,模型中仍然假设索引项之间是相互独立的,其他模型,结构化文本检索模型信息浏览模型,35,其他模型1. 结构化文本检索模型概念,有时候,用户希望能够对文档中的某些结构组元中包含的信息进行检索,例如,对出现在章节标题的词进行检索。那么就需要一种模型,把文档内容与文档的结构结合起来,为用户提供信息检索的能力。这种模型就被称为结构化文本检索模型。 在检索任务中,传统的结构化文本检索模型没有采用相关性的思想,它只是从各个结构组元中匹配用户的查询项。从这个意义上看,过去的结构化文档
16、检索模型是一个数据检索模型,但是,检索系统能够搜索出那些部分匹配查询条件的文档,在这种情况下,这种匹配是近似的,并且某些排序也是使用这种近似的结构,36,其他模型结构化文本检索模型概念,结构化文档检索算法可以看作是一种信息检索算法,但排序机制并不健全 使用“匹配点”来表示文本与用户查询相匹配的词串位置 使用“区域”表示文本的块 使用“节点”表示文档的结构化组元 这样,一个节点是一个区域,具有文档的作者与用户所共知的、预定义的逻辑属性,37,其他模型结构化文本检索模型,基于非重叠链表的模型是把文档中的整个文本划分为非重叠文本区域,并用链表连接起来 因为有多种方法将文本分为非重叠的区域,所以,对于
17、同一个文档,会产生多个链表 这些链表清晰的记录了文档的数据结构 在相同链表中的文本区域没有重叠,而不同链表中的文本区域可能会重叠,38,其他模型2. 结构化文本检索模型非重叠链表模型,为允许对索引项和文本区域进行搜索,要为每个预定义的链表建立一个索引 在索引中每个结构组元作为索引中的一个项目 因为针对每个索引项目,其索引的文本区域是不重叠的,所以可以提交的查询是简单的 选择一个包含给定词的区域 选择一个不包含在给定区域的区域 选择一个不被包含于任何其他区域的区域,39,其他模型结构化文本检索模型,该模型是一种允许在相同文档上独立定义分层索引结构的模型,每个索引结构是一个严格的层次结构,其中每个
18、结构组元称为节点,每个节点与一个文本区域相关,两个不同的层次结构可能涉及到两个重叠的文本区域 针对不同层次结构的用户查询,所汇集的结果是由来自其中一个层次结构的节点组成,因此,一个应答结果是不能由来自两个不同层次结构的节点组成 这样做的目的是使得查询处理的速度快,40,其他模型3. 结构化文本检索模型邻近节点模型,ChapterSectionParagraph,41,其他模型4. 信息浏览模型平坦浏览,该模型的思想假设用户浏览一个具有平坦组织的文档空间,文档集可以被描述为平面上的点或是链表中的元素 用户在这些文档上到处浏览,以寻找有关信息,在反馈过程中,用户通过在邻近文档中的浏览,查找出相关的
19、资料,找出一些感兴趣的关键词。这些关键词将被输入到原始的查询中,以试图提供更好的、新的查询 同样,用户也可以以平面方式,浏览单一的文档。例如使用滚动条来浏览一个Web页面。 该模型的不足 在给定的一个页面或屏幕上,可能没有任何用户所处上下文情况的指示 平坦模型缺乏层次性的视图、用户的浏览行为很容易迷航,42,其他模型5. 信息浏览模型结构向导浏览,为了对浏览的行为提供更好的支持,文档应该被组织成为如目录那样的结构,目录是类的层次结构,对文档按照主题来分类和组织 在这样的情况下,用户执行一个具有结构向导类型的浏览。同样的思想仍然可以应用到一个单独的文档上。一个好的界面能够以变焦的方式上下查看这些
20、层次,辅助用户的浏览过程,并保持上下文线索 除了用于浏览任务导向的结构外,界面也可以提供一些其他的导航工具,如提供浏览历史,指示最近访问的节点,这对于浏览结构庞大的文档集是相当有用的,43,其他模型6. 信息浏览模型超文本浏览,传统的文本书写相关的概念是顺序的 写作的顺序通常被认为是阅读的顺序,读者也不期待通过随机的阅读某段文本而全部理解作者的思想 无论是纸制或计算机中存在的文本,全部都是按顺序编排的,这样提供文档主要是为了满足顺序阅读的需要。而且顺序阅读也是大多数用户的阅读习惯,特别是上下文联系紧密的文档。,44,其他模型信息浏览模型超文本浏览,虽然由于制作的缘故,文档中的文字是顺序编排的,
21、但用户不一定按编排顺序进行阅读,文本的顺序存放和管理方式与人的阅读过程中的联想思维方式及相应的活动是不相适应的。我们需要借助某种技术来实现跳跃式阅读,真正实现非线性阅读和浏览,需要定义一种新的组织结构,这种结构就是“超文本”。 超文本是一个允许以非顺序的方式在计算机上浏览文本的高层交互式导航结构。它由节点和链组成,节点之间的关系由链表示,节点和链构成一个有向图。支持用户的非线性浏览和信息存取。超文本的导航过程可以被理解为一个有向图的游历过程,图中被链接的节点表示节点之间有某种语义关联,45,其他模型与经典模型的比较,布尔、向量和概率模型是三个传统的检索模型 布尔模型是基于集合理论和布尔代数的一
22、种简单检索模型 向量模型采用非二值的索引项权重,把文档和查询用t维权重向量表示,计算这两个向量之间的相似度来实现查询与文档的匹配 概率模型是一种规范的模型,它试图预测给定查询的相关文档,排序原则根据文档与集合的相似度进行排序,46,其他模型与经典模型的比较,文档的结构也包含了信息,基于非重叠链表和邻近节点模型是两个典型的结合和内容结合起来进行检索的模型 三种浏览模型:平坦模型,结构导向模型和超文本模型 平坦模型把文档(集)看成是一个平坦的文档空间。由于是平坦的,这种模型的导航关系不清楚 结构导向模型提供了层次性目录式的导航模型,是一种非平坦模型 超文本模型是由节点和链组成的非线性的信息组织网络
23、,能够为用户提供比上两种模型更多的信息,更方便的浏览,Web是它最成功的应用,国内检索模型理论研究现状国内主要热点,向量空间模型 统计模型 相似度 网络检索 搜索引擎 布尔模型 信息过滤 查全率 查准率,中文信息处理 查询 用户模型 文本检索 图像检索 文本分类 知识检索 数字图书馆 智能信息检索,47,48,发展趋势与研究课题,继续研究向量空间模型和概率模型 1985年,索顿先生在信息科学研究札记中强调了这两种模型,最近发表的文献大多数也是关于这两种模型。TREC评测中这两种模型也具有明显的优势 研究各种模型的融合 扩展布尔模型吸收了概率模型和向量模型的优点 研究综合型的多媒体检索模型 基于
24、图像、图形、语音的案例检索模型 研究检索模型的智能化 将人工智能技术应用于检索技术,49,发展趋势与研究课题,图书馆系统 集中于检索中的认知与行为问题的讨论,或者说研究模型对用户的影响 专业检索系统 核心问题是如何避免大量无关的文献,特别需要研究先进的排序算法 互联网检索系统 核心问题是用户界面如何影响排序,50,国内检索模型理论研究现状,国内主要研究人员 中科院国科图 孙坦 武汉大学图情学院 焦玉英,刘伟成 武汉大学图书馆 邓珞华 海南大学信息学院 雷景生 华南理工大学 吴应良 云南师范大学 陶跃华,51,参考资料,近几年来国外信息检索模型研究进展,孙坦,图书馆建设,2008.03浅析信息检
25、索模型的现状及趋势,田欢,计算机光盘软件与应用,2012.01几种信息检索模型的比较,赵琳,煤炭技术,2012. 08贝叶斯网络检索模型的性能评估,白彦霞等,计算机工程与应用,2011(47)基于贝叶斯网络的结构化信息检索应用研究,王军涛等,网络信息化研究,信息检索模型的比较研究,张艳,电脑知识与技术,2009.08数字图书馆个性化信息检索模型研究,许春漫,现代图书情报技术,2006.03基于非结构化文本检索模型综述,丁志均等,计算机应用研究,2017(6)信息检索模型及相关性算法的研究,吴丽华等,情报杂志 ,2006(12) 数字图书馆信息检索技术的智能化发展趋势,王峰等,现代情报,2008(11)我国智能化信息检索发展及研究现状,韩娇红,图书馆学刊 ,2012(1) TF / IDF 算法介绍 http:/202.120.121.216:2048/slider/jyx/mir/tfidf.doc,