游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统---开题报告.doc

上传人:滴答 文档编号:1274015 上传时间:2019-01-26 格式:DOC 页数:8 大小:71.50KB
下载 相关 举报
游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统---开题报告.doc_第1页
第1页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、厦门大学软件学院毕业设计(论文)开题报告 学生姓名 班级 学号 校内指导教师姓名 职称 所在单位 厦门大学软件学院 毕业设计(论文)题 目 垂直搜索引擎:搜索新未来 毕业设计(论文)的 目标: 开发关于游戏的具有全文 (中文 )检索的垂直搜索引擎系统。根据收录的多个信息格式相对单一的垂直门户和论坛,通过分析工具分析其信息特点和关键词分布状况,然后基于现有的信息格式建立索引库,以及相应的数据库。用户通过网页的方式查询,查询后的结果也以网页的方式显示。 实现方法: 基本环境 : 开发工具: MyEclipse, Dreamwear, Photoshop 开发语言: Java, Javascript

2、 开发平台: windows 测试工具: Junit 数据库: MYSQL 工作原理: 搜索引擎是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分 。 信息搜集:通过使用网络爬虫从网络上抓取想要的资源。网络爬虫是搜索引擎出现的前提。 信息整理分为构建文本库、建立索引。 1.构建文本库 在开发检索功 能前,一个信息检索系统需要做些准备工作。首先,必须构建一个文本数据库,亦词库。这个文本数据库用来保存所有用户可能检索的信息。这个文本数据库具有可识别、冗余程度低等特点。该文本数据库是基本之前网络爬虫抓取的资源而建立的。 2.建立索引 有了文本数据库之后,

3、就应该根据词库内的文本建立索引。索引可大大提高信息检索的速度。 用户查询又可分为搜索以及对结果的过滤两部分。 1.搜索 该部分通常是由用户提交一个检索请求,该请求将被分析,然后利用文本操作进行处理。 2.对结果的过滤 通常,在 系统检索到用户需要的信息后,还需要做一步操作,就是将信息以一定的规则进行排序或过滤,在返回给用户。这一步关系到最终用户的体验。如果总是将一些无关信息返回给用户,那么它一定不是一个成功的搜索引擎。 时间进度安排: 2008 年 11 月 20 日 -2009 年 1 月 11 日:查阅相关书籍资料,所有概念细节的敲定。 2009 年 1 月 12 日 -2009 年 1

4、月 20 日:征求导师意见后进一步改进,整理提交毕业设计开题报告。 2009 年 1 月 21 日 -2009 年 2 月 13 日:完成相应文档资料。 2009 年 2 月 14 日 -2009 年 4 月 30 日 :对必要技术及工具进一步了解和学习,完成基本代码修改和编写,整个系统的基本完成。 2009 年 5 月 1 日 -2009 年 5 月 10 日:集成测试,整个软件主体基本完成。 2009 年 5 月 11 日 -2009 年 5 月 20 日:系统测试,以及各种性能分析。 2009 年 5 月 21 日 -2009 年 5 月 30 日:确认软件功能,确认所需功能均已完成,并

5、完成具体功能检查。 2009 年 6 月 1 日 -2009 年 6 月 30 日:项目文档终稿完成,提交毕业论文,准备毕业答辩。 指导教师审核意见: 校内指导教师签名: 2009 年 月 日 厦门大学软件学院毕业设计(论文) 中期检查 报告 学生姓名 班级 3 班 学号 校内指导教师姓名 职称 所在单位 厦门大学软件学院 毕业设计(论文)题 目 垂直搜索引擎:搜索新未来 毕业设计(论文)的 目标和主要任务: 设计构建一个关于游戏的垂直搜索引擎,以 Eclipse 作为开发环境。后台数据处理使用 Lucene 索引工具和 Heritrix 爬虫技术,前台使用 JSP技术进行页面设计,后台数据库

6、使用 MySQL 数据库 。设计的目的是让用户可以在网站上搜索其需要的游戏信息,并能从搜索结果中打开一个有关游戏详细参数的页面进行浏览。在系统中,游戏信息是从新浪游戏、 17173和迅雷游戏上利用 Heritrix 抓取下来的。网页经过 HTMLParser 解析后,得到的游戏详细信息插入到 MySQL 数据库中,并为该游戏建立词库和Lucene 索引。最后构建一个简单的 Web平台,对建立的索引和数据库进行整合,为用户提供真正的搜索服务。 已经完成毕业设计(论文)任务的情况 : 经过团队成员的讨论,已完成对项目的大概了解,进行了可行性分析、需求分析等。并已经编写好了项目的详细设计说明书,现在

7、正在按照项目的详细设计开发项目的几个核心模块,包括网络爬虫模块、网页解析模块、数据库和索引模块以及前台试图模块。按照计划再经过两周,项目既可完成。 存在的问题和困难(包括需要学院协助解决的问题和困难): 主要有以下两个问题 : 1.这个垂直搜索只能做游戏领域吗? 我们现在想换其他领域可不可以啊? 2.我们现在是抓取了新浪游戏的游戏资料库,但是都是下面这种 url http:/ 从这些网址中不知道怎么找出各游戏的 ID 来建立索引,不会解析网页,不知道怎么从这些页面中提取出我们所需要的信息。特向您请教 指导教师审核意见: 校内指导教师签名: 2009 年 月 日 学院检 查组意见: 学院检查组组

8、长(签章): 2009 年 月 日 毕业论文任务书 题 目: 垂直搜索引擎:搜索新未来 目标要求: 毕业设计(论文)的 目标: 开发关于游戏的具有全文 (中文 )检索的垂直搜索引擎系统。根据收录的多个信息格式相对单一的垂直门户和论坛,通过分析工具分析其信息特点和关键词分布状况,然后基于现有的信息格式建立索引库,以及相应的数据库。用户通过网页的方式查询,查询后的结果也以网页的方式 显示。 支持条件: 基本环境: 开发工具: myeclipse, dreamwear, photoshop 开发语言: java, javascript 开发平台: windows 测试工具: junit 数据库: m

9、ysql 校内 指导教师(签名) 职称 学生(签名) 分阶段进度安排 阶段 起讫时间 计划完成内容 1 2008 年 11 月 17 日 -2009 年 1 月12 日 阅读文献资 料,理解任务,完成开题报告 2 2009 年 1 月 13日 -2009 年 3 月 20日 对必要技术及工具进一步了解和学习,完成中期检查报告 3 2009 年 3 月 21日 -2009 年 4 月 30日 进行开发阶段,完成 整个系统 的开发 4 2009 年 5 月 1 日 -2009 年 5 月 14日 系统测试,撰写毕业论文初稿 5 2009 年 5 月 15日 -2009 年 6 月 10日 论文撰写、论文答辩 教师分阶段指导记录 第一阶段: 第二阶段: 第三阶段: 第四阶段: 第 五阶段: 论文评语 拟评成绩 校内指导教师(签名) 职称 2009 年 月 日 论文评阅 评阅成绩 评阅教师(签名) 职称 2009 年 月 日 答辩记录 演示成绩 答辩成绩 答辩小组组长(签名) 职务(称) 2009 年 月 日 总评 成绩 学院负责人(签盖) 2009 年 月 日

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。