精选优质文档-倾情为你奉上改进的BM25F评分算法在文献检索系统中的应用目录专心-专注-专业摘 要本文主要就改进的BM25F评分算法在论文检索中的实现与应用过程进行了介绍。首先是数据集的建立过程,为了配合BM25F评分算法在结构化文档中的优势,检索对象设定为学术论文,基于万方数据库提供的文献资源通过爬虫建立了检索数据集;然后是搜索引擎搭建过程,索引使用的是倒排索引,在实现了BM25F算法之后,结合实际检索效果,从以下三个方面对系统进行了优化。(1)对BM25F进行改进,将文档中查询关键字的紧邻距离作为影响评分的一个因素加入至BM25F评分算法中。(2)优化了数据库设计,分别添加了各个域的长度字段,为各个区域长度的计算提供了便利,一定程度上提高了检索效率。(3)实现了定时增量索引,在很大程度上节省了索引创建时的开销,同时保证了数据查询的实时性,以及系统数据的可扩展性。关键词: 爬虫;BM25;BM25F;紧邻距离;增量索引;1 系统
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。