1、检索的改进技术哈工大信息检索研究室2007这一部分将讲述n 文本处理的方法n 基于倒排索引和基于签名档的检索n 问题的扩展和相关反馈方法文本处理 term处理信息检索系统的体系结构文本数据库数据库管理建索引索引提问处理搜索排序排序后的文档用户反馈文本处理用户界面检出的文档用户需求文本提问逻辑视图倒排文档文本表示n 文本可以表示为n 一个字符串n 词的集合n 语言单元 (例如:名词、短语 )n 简单的表示 (如:单个词项 ) 效果好n 以往的一些研究显示:基于短语的索引不如基于词的索引n 短语可能太特殊了文本处理主要方法n 分词(中文),断词(英文)n 异文合并n 繁简转换n 形态还原n 提取词
2、干n 其他断词n 句点 是英文中引起断词歧义最多的符号,也是最难处理的一个符号,如:The experiments led by Dr. Alan achieved a precision of 90.7%.n 解决方案:规则 +词表n 撇号 主要用于构成英文的动词缩写式和名词所有格,如: Im,wont, childrens, parentsn 解决方案:整体标注( Brown语料),分开( Penn Treebank)n 连字符 可以用来构成合成词,用连字符构成的合成词有两类:n 一类已经固定成词,如: e-mail, co-operate;n 另一类是根据特定用法或语言环境生成的词,如
3、four-year, 1983-1987, All-In-Onen 解决方案:主要通过词表解决分词n 中文检索系统主要有两种检索方案:n 基于字的检索按单字建立索引,需要在检索时进行逻辑运算;n 基于词的检索按词建立索引,检索时直接命中。n 基于词的方法具有检索速度快、准确率高的优点,目前的中文检索系统多数都支持基于词的检索。n 最大匹配法的分词实现很简单,并且可以满足一些对分词准确率要求不高的检索系统,该方法在早期的分词系统中被广泛使用异文合并n 英文的异文合并主要体现在提取词干及形态还原n 中文的异文合并主要体现在繁简转化特点n 克服词形的变化,把所有同根词转变为单一形式n RECOGNIZE, RECOGNISE, RECOGNIZED, RECOGNIZATIONn 优点 :n 减少不同 term的数量n 识别相似的词n 改进了检索性能,但不采用语言分析的方法n 缺点:n 正确率显然达不到 100%n 不正确的 stemming算法可能改变词的含义n 需要避免过分的截断n MEDICAL和 MEDIA被识别为 MED*,并被认为是意义相近的,这就错了