文档评分与向量空间模型 主讲人:陈文亮 李正华稍微删减 苏州大学计算机学院提纲 2 1. 排序式检索 2. 词项频率词项频率 3. tf-idf权重计算 4. 向量空间模型提纲 3 1. 排序式检索 2. 词项频率 3. tf-idf权重计算 4. 向量空间模型为什么要排序5 排序式检索(Ranked retrieval) 迄今为止,我们主要关注的是布尔查询 文档要么匹配要么不匹配 对自身需求和文档集性质非常了解的专家而言,布尔查询是不 错的选择 对应用开发来说也非常简单,很容易就可以返回1000多条结果 然而对大多数用户来说不方便 大部分用户不能撰写布尔查询或者他们认为需要大量训练才能 撰写合适的布尔查询 大部分用户不愿意逐条浏览1000多条结果,特别是对Web搜索 更是如此 对于刚才的例子,40M的文档,相信大家都不会想去看。 56 布尔搜索的不足: 结果过少或者过多 布尔查询常常会倒是过少(=0)或者过多(1000)的结果 查询 1 (布尔或操作): standard user dlink 650 200,000 个结果 太多 查询2 (布尔与操作): standard user