1、厦门大学软件学院毕业设计(论文)开题报告 学生姓名 班级 学号 校内指导教师姓名 职称 所在单位 厦门大学软件学院 毕业设计(论文)题 目 基于隐形反馈的用户个性化查询服务研究 -用户行为资料收集研究 毕业设计(论文)的 目标: 一、整体目标 1搭建一个简易的个性化搜索平台,实现对文本数据源的索引和搜索 2采用四层架构,并且使得层与层之间松耦合高内聚 3实现不同中文分词算法的切换 4. 可更换数据源 5跨平台( Windows、 Linux 和 Unix) 6人性化的用户界面 二、基于隐形反馈的用户个性化查询服务研究目标 1. 学习和理解几种常用查询扩展技术 2. 学习怎样通过用户的隐式的反馈
2、信息 ,包括先前的查询和点击通过的信息,来增加在综合信息检索环境下检索的正确性。 3. 单独实现一个独立于系统外的收集用户行为资料的 firefox 插件。 实现方法: 一、基本环境 开发工具: eclipse 3.2 +myeclipse 5.5+Tomact 6.0+firefox3.0 开发语言: Java jdk1.5 开发平台: Windows XP 开发使用的插件: myeclipse 5.5 开发使用的 web 容器: Tomcat 6 软件建模: StarUml 5.0.2,Visio 二系统模块划分 搜索引擎一般分为三个阶段:搜集,预处理以及提供查询服务,因为目前系统中的数据
3、源是已经存在的,所以此系统只涉及预处理以及提供查询服务模块。以 TF*IDF 算法为例,对于页面的排序涉及到预处理阶段中对网页权重的计算,以及查询服务阶段的相关性排序,有必要先对系统的这两个模块做一下描述: 3) 预处理模块 1 分词 分词主要的操作对象是数据源以及用户提供的查询语句,系统首先通 过分词工具对数据源进行分词,形成索引表以及倒排索引表,然后再将用户的查询条件用同样的分词工具进行分词,最后根据分词后的词条进行查询。TF*IDF 算法就是通过分词后的词频( TF)来计算数据源的权值的。 2 建立倒排索引表 所谓倒排索引表就是通过关键字(词条)对数据源进行映射,这样系统中就形成了如下图
4、的映射关系: TF*IDF 算法所需要的倒置文档频率( IDF)可以从这个步骤获得。 (二)查询服务模块 查询服务模块主要提供用户查询的服务,系统首先对用户 的查询条件进行分词,然后将分词后的结果作为输入,将其提供给查询模块,查询模块进行进一步的处理,最后系统将符合用户条件的数据源返回给用户。例如使用 TF*IDF 算法,查询模块将分词后的查询条件同数据源进行向量余弦比较,得到按照相关性排序的结果,返回给用户。 三模块关系 模块之间的关系可以通过下图来描述: 四系统流程图 整个系统的流程图如下: 五 基于隐形反馈的用户个性化查询服务研究 1. 概述 随着计算机性能的提高,系统能够用一部分的资源
5、来处理查询优化的问题,查询优化因此成为信息检索 中的一个研究热点。查询的优化已成为用户与计算机两个“智能系统”之间进行对话的一种有效手段。 2. 现状 目前流行的查询优化技术主要有相关反馈,伪相关反馈,伪相关反馈是相关反馈的基础上发展起来的。 相关反馈机制由用户检索出的文档进行相关性判断,系统根据这些判断生成新的查询,从而提高最终结果的准确率。伪相关反馈不需要与用户互交,它将初次查询的前 N 篇文档自动认为是相关文档,以此为依据对查询进行扩展。 3. Firefox 下的插件 (一)定制方式 ( 1) 针对于普通用户 (最一般的广大用户 ),默认为最普遍的使用方式。 一些个性化的需求可用 “选
6、项 ”的可视化配置方式。这些配置方式用户在入门以后就可以根据自己的需要很轻松地无障碍地定制。 ( 2) 针对于高级用户。对界面进行简单地修改高级玩家肯定不满足于此。因此这些用户可以根据自己的需求,利用 FireFox 自身提供的机制,编写插件,主题等等,进一步满足个性化需求。 ( 3) 针对于职业用户。当要进行大规模应用时,比如快速部署什么的,FireFox 提供了一种完全脚本化的 东西 ,你可以任意修改 FireFox 的配置,甚至是源代码来满足这方面的需求。 时间进度安排: 2009 年 1 月 13 日 -2009 年 3 月 20 日,需求分析,学习所需的技术,配置好项目所需的环境,完成中期检查报告 2009 年 3 月 21 日 -2009 年 4 月 10 日,编码完成,实现模块功能。 2009 年 4 月 11 日 -2009 年 5 月 10 日,系统的整合,测试。 2009 年 5 月 11 日 -2009 年 5 月 31 日,编写整理项目文档。 2009 年 6 月 01 日 -2009 年 6 月 10 日,提交毕业论文,准备毕业答辩。 指导教师审核意见: 校内指导教师签名: 2009 年 月 日