1、毕业论文任务书 题 目: 基于 Lucene 的大文档集合索引机制 文档索引的分析、设计和实现 目标要求: 索引器的工作就是为 Spider抓取的网页建立全文检索索引,因此索引器是整个搜索引擎系统至关重要的一个环节。全文检索索引 的目的在于 为每个切出来的词建索引,查询时就只需要遍历索引,而不需要遍历正文,从而极大地提高检索效率。本文 将 在对搜索引擎基本概念,搜索引擎发展历程剖析的基础上,对搜索引擎中的索引模块的索引组织方法,索引模块的基本原理进行 探究,进而 通过对 Lucene源码关键部分的剖析,理解 Lucene的系统组织结构、索引数据库的文件结构, 从而 利用 Lucene API函
2、数,实现 索引器的批量索引与增量索引 以及索引的删除,实现了搜索引擎的索引 部分的 功能,最后 利用 luke软件对索引器生成的索引进行检验和测试, 完成 搜索引擎构建中索引部分的编程要求。 支持条件: 1、 硬件支持: PC 微机一台, Mobile Intel(R)4-M CPU 2.2GHz,512MB 内存 2、 软件支持 开发工具: Eclipse 3.3.1.1 开发平台: WindowsXP, Java, jdk1.5.0 开发插件: lucene 测试工 具: Luke 指导教师(签名) 职称 学生(签名) 分阶段进度安排 阶段 起讫时间 计划完成内容 1 2008 年 2 月
3、 18 日 -3 月 31 日 阅读文献资料,理解任务,完成开题报告 2 2008 年 4 月 1 日 - 4 月 15 日 资料收集、完成系统整体设计 3 2008 年 4 月 16 日 - 5 月 5 日 代码编写,实现主要功能 4 2008 年 5 月 6 日 - 5 月 15 日 对系统功能进行测试 5 2008 年 5 月 16 日 - 6 月 2 日 论文撰写、论文答辩 注:一般可分为资料文献搜索、拟定方案(提纲)、试验或初稿、定稿等阶段 教师分阶段指导记录 第一阶段: 指导完成论文题目的选定,并提供给相应的课题材料用于参考与分析,并明确参考文献的查找范围。 第二阶段: 讲解这次项
4、目的要求和目的,指导提出总体解决方案;指导完成开题报告。 第三阶段: 对代码编写进行指导,对期间遇到的问题,提供咨询和帮助。 明确划分该同学的模块和同一小组的其他同学模块。 第四阶段: 指导该同学对整个程序进行分析和测试,该程序达到了预期的目标,保证了准确性。 第五阶段: 指导该 同学进行论文的修改,定稿。 论文评语 拟评成绩 校外指导教师(签名) 职称 校内指导教师(签名) 职称 2008 年 月 日 论文评阅 评阅成绩 评阅教师(签名) 职称 2008 年 月 日 答辩记录 演示成绩 答辩成绩 答辩小组组长(签名) 职务(称) 2008 年 月 日 总评 成绩 学院负责人(签盖) 2008 年 月 日