文本特征信息搜索与分类系统设计【毕业设计】.doc

上传人:一*** 文档编号:61230 上传时间:2018-06-01 格式:DOC 页数:38 大小:3.03MB
下载 相关 举报
文本特征信息搜索与分类系统设计【毕业设计】.doc_第1页
第1页 / 共38页
文本特征信息搜索与分类系统设计【毕业设计】.doc_第2页
第2页 / 共38页
文本特征信息搜索与分类系统设计【毕业设计】.doc_第3页
第3页 / 共38页
文本特征信息搜索与分类系统设计【毕业设计】.doc_第4页
第4页 / 共38页
文本特征信息搜索与分类系统设计【毕业设计】.doc_第5页
第5页 / 共38页
点击查看更多>>
资源描述

1、 本科 毕业 设计 (论文 ) (二零 届) 文本特征信息搜索与分类系统设计 所在学院 专业班级 计算机科学与技术 学生姓名 学号 指导教师 职称 完成日期 年 月 - 2 - 摘要: 随着信息技术的发展与应用以及互联网的逐渐普及,庞杂的文本信息流急剧增多,这对我们的认知与决策带来了很大的压力。本论文主要 用 JAVA 语言,运用搜索引擎和文本挖掘等相关技术,按照 用户提交查询 的 关键词 (文本特征 )来查找 在 Web上 与之匹配的信息 以实现文本特征信息的搜索,通过相关的调整和分类,用户能够有效、迅捷地获取所要的文本信息。 关键词: 文本特征;搜索引擎;分类 - 3 - The Syst

2、em Design of Text Feature Information Search and Classification Abstract:As information technologys development and application and Internet penetration, the sharp increment of numerous text information flow, we have much pressure on our knowledge and decision. The system mainly is designed by JAVA

3、language, through technologies about search engine and text mining and so on. According to users submitting query keywords (text feature) ,the system looks for some information on Web to realize text feature information search. Through related adjustments and classification, users can get text infor

4、mation effectively and quickly. Key words: text features;search engine;classification - 4 - 目 录 1 在特征文本中搜索引擎的重要性 . 1 1.1 搜索引擎的发展 . 1 1.2 搜索引擎的相关技术 . 1 1.2.1 搜索语法 . 1 1.2.2 网络蜘蛛 . 2 1.2.3 提 取文档中的文本内容 . 2 1.2.4 中文分词 . 2 1.2.5 自然语言处理 . 3 1.2.6 创建索引库 . 3 1.2.7 用户界面设计与实现 . 4 1.3 搜索引擎在文本特征中的应用 . 5 2 在特征文本

5、中文本挖掘的重要性 . 6 2.1 文本挖掘的发展 . 6 2.2 文本挖掘的相关技术 . 6 2.3 文本挖掘在特征文本信息的应用 . 7 3 实现特征文本信息搜索与分类系统的对策 . 8 3.1 文本挖掘 . 8 3.2 搜索引擎 . 9 3.3 模块设计 . 10 3.3.1 搜索界面设计 . 12 3.3.2 搜索引擎设计 . 14 3.3.3 数据库设计 . 18 3.3.4 结果显示界面设计 . 20 4 总结 . 22 致谢 . 错误 !未定义书签。 附录 . 24 1 1 在特征文本中搜索引擎的重要性 1.1 搜索引擎的发展 现 如今, 除了 门户的互联网 外, 搜索引擎已成为

6、第二大核心技术。随着互联网的普及和网上信息的爆炸式的增长 , 在短短十年的时间内,搜索引擎迅猛地发展起来 ,它 越来越引起人们的重视 。搜索引擎技术现在已成为计算机界争相研究和开发的对象 , 已成为一个非常热门的话题。通过统计和分析搜索引擎技术和检索任务方面的词语,一方面可以反映出对搜索引擎的关注程度,另一方面也能大致分析出搜索引擎的发展现状以及发展趋势。 文献 1对 搜 索引擎的发展 大致 分割成 3个阶段 。 第一个阶段里 的搜索引擎 以雅虎为标志,主要依靠人工分拣信息 , 用分类目录搜索信息 。这一阶段的搜索引擎技术还 处于萌芽阶段。 虽然这样,但 此时各种搜索引擎概念 也 相继出现 了

7、 ,如目录式搜索引擎、全文搜索引擎、元搜索引擎等。这一阶段,词频相对较高的关键词是全文检索、智能检索、多媒体、图像搜索、语义网络、分类目录、分类主题等。这个时期分类搜索是网络搜索的主流。 搜索引擎在第二个阶段里开始迅速发展。最负盛名的搜索引擎当数 Google,它在 1999年以不可抵挡的势头走向世界 , 依靠机器抓取、分析进 行网页搜索 , 带动了新技 术 PageRank和锚文本技术的发展。此阶段的热点词语有关键词检索、倒排索引、全文索引、自动摘要、链接分析等。这段时期链接分析技术、 PageRank 算法以及 Hit算法等如火如荼地展开。人们基本认为 Web信息检索开始进入了新一代搜索引

8、擎阶段。 第三个阶段里搜索引擎的研究变得非常火热,搜索引擎越来越向智能化、个性化、专业化的方向发展,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品。通过对文本分类、聚类、用户行为分析、分布式、相关反馈、智能代理、查询扩展等高频词的分析,我们可以看出,人工智 能、数据库、数据挖掘、自然语言理解等领域的研究有力地促进了搜索引擎的发展。 1.2 搜索引擎的相关技术 1.2.1 搜索语法 实现一个搜索语法是专业搜索引擎都需要的,基本的搜索语法包含以下逻辑运算符: (1)或:要求搜索结果可以包括运算符两边的任意一个查询词,符号包括( OR、 |)。 (2)与:要求查询词必须出现在搜索结果中,符号包括(

9、 +,空格)。 (3)非:搜索结果中要求不含特定查询词。如果你不希望看见搜索结果中某一类的网页,然而这些网页都包含特定的关键词,那么就可以用此语法去除所有这些含义特定关键词的网页,符号包括( -)。 2 搜索语法也可以借助调整搜索范围来实现,有以下几种方式限定搜索范围: (1)把搜索范围限定在网页标题中:网页标题通常是对网页内容的归纳,把查询范围限定在网页标题中,有时能获得良好的效果。 (2)把搜索范围限定在特定站点中:如果你有时候知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,以提高查询效率。 (3)把搜索范围限定在 URL链接中:因为网页 URL中某些信息常常具有某种有

10、价值的含义,所以如果对搜索引擎结果的 URL做某种限定,就可以获得良好的效果。 1.2.2 网络蜘蛛 网络蜘蛛( Spider)有时被称 作网络机器人( Robert),有时也会被称作 Crawler,它的主要目的就是为获取互联网上的信息。网络蜘蛛原理就是通过一个互联网的入口 (例如http:/dmoz.org)利用网页中的超文本链接遍历 Web,通过 URL 引用从一个 HTML 文件爬到另一个HTML文档。网络蜘蛛为了能建立索引、进行 HTML文件的验证、实现 URL链接验证、获取更新信息、取得站点镜像等多种用途而收集信息。其中网络蜘蛛扮演一个重要角色就是建立网页数据库 (包含根据页面内容

11、生成的 文摘 )。 大部分网络机器人根据 Robert.txt协议抓取网页 。 1.2.3 提取文档中的文本内容 HTML、 Word、 PDF等文档格式都是搜索引擎经常要处理的内容。 Word和 PDF的格式是专有和非公开的, HTML 格式虽然是公开的但是比较复杂。而且这些文档格式中相同的格式往往也有不同的版本,如 Word就包括 doc和 docx这两种格式, PDF甚至拥有从 1.0到 1.7及其扩展版等 9种格式。 文件中提取文本信息有两个不同方向,分别从 HTML文件中提取和从非 HTML文件中提取,并且对于中文来说,还可能需要识别字符的编码。 (1)从 HTML文件中提取文本:从

12、 HTML文件中提取有效文本,经常会碰到两种类型,一种是针对特定的网页特征提取结构化信息,另一种是通用的网页去噪。 (2)从非 HTML文件中提取文本:非 HTML文件包括从最简单的文本文件到 PDF、 Word、 RTF、 Excel和 PowerPoint格式的文档提取正文。 1.2.4 中文分词 英文存在边界,而中文文本中的词和词之间没有存在边界,所以一个专业处理中文信息的搜索引擎首先要面对的问题就是中文分词。在常用的语言中,简体中文、繁体中文和日文存在分词问题。 中文分词的原理就是按照分词的两类 方法:一种是机械匹配的方法,另一种就是统计的方法。其中机械匹配的方法是最常见的方法,它主要

13、利用正向或反向最大匹配的方法来划词。 3 查找词典算法和最大概率分词方法是中文分词经常要用到的技术。 在中文分词过程中要不断地使用和对照词典,因此中文分词所使用的词典规模往往会越来越大,这就需要选择一个好的查找词典算法来提高分词性能。 一个待切分的汉字串可能包含多种分词的结果,其中概率最大的那个就是作为该字符串的分词结果。这就是最大概率分词方法的基本思想。 1.2.5 自然语言处理 当前搜索引擎主要处理的内容是文本信息。自然语言处理 (Natural Language Process)也是搜索引擎需要考虑的内容。自然语言处理严格来说包括自然语言理解和自然语言生成两部分。 (1)语法分析树 虽然

14、语法分析树一般用在机器翻译中,但是搜索引擎也可以借助语法解析树更准确地理解文本。 (2)文档排重 在同一个网站中,有时候不同的 URL地址可能对应同一个页面,或者存在同样的内容以多种方式显示出来。这是由于不同的网站间转载内容而引起的。为了搜索出有价值的文本信息,网页的文档排重是必要的。在众多方法中,语义指纹方法在判断文档内容重复方面效率较高。 (3)自 动文摘 什么叫做摘要?摘要就是指减少原文的长度而保留文章的主要意思。摘取性和概括性是摘要的实现方法。相对容易实现的方法是摘取性,摘取文章中的主要句子是通常的实现方法。 (4)自动分类 把一个未见过的文档分成已知类别中的一个或多个,这就是自动分类

15、程序要完成的任务。自动分类包括单类分类和多类分类。单类分类指分成一个类别,多类分类指分成多个类别。常见的分类方法有支持向量机( SVM)、叶贝斯( Bayers和)和 K 个最近的邻居( KNN)等。 (5)自动聚类 聚类叫做将一个数据对象的集合分组成类似的对象组成的多个类的过 程,其中每一个类称为簇。它有一个特性就是同簇中的对象彼此相似,不同簇中的对象相异。文档聚类已经成为文档信息进行有效组织、摘要和导航的重要手段,就是对文档集合进行划分,使得同类间的文档相似度比较大,不同类的文档相似度较小,不需要预先对文档标记类别,具有较高的自动化能力。 1.2.6 创建索引库 索引涉及到的内容如下: (

16、1)设计索引库结构 4 一个索引库类似一个数据库的表结构,但索引库只能存储字符串。需要特别指出的是,如果是日期或者数字,则需要专门的方法转换成字符串后再索引。 (2)创建和维护索引库 创建和更新索引,可以用开 源 Lucene和提供的 API来实现,查看索引内容并维护索引库可以用索引查看工具。 (3)删除索引库中的索引文档 (4)更新索引库中的文档 (5)合并索引 (6)定时更新索引 (7)备份和恢复索引 (8)修复索引 1.2.7 用户界面设计与实现 搜索结果界面是实现读取索引库数据和展现 Web 的方式。其中 Web开发方面用到的基础技术有Servlet、 JSP、 taglib、 AJA

17、X等。 (1)搜索页面设计 搜索结果页是一个表格型的数据,可以用 taglib 来显示搜索结果页。 Pager Tag Library 是一个广泛使用的分页 taglib。对数据的封装和抽象可以用 Listlib 来实现,它能控制显示的结果数量,比如可以指定每页显示 20 条记录或 10条记录。 (2)实现搜索接口 搜索接口可以用布尔搜索来实现,而布尔搜索是用布尔查询来实现多个查询条件的合并。 可以用多个字段排序,比如可以先按地区,然后按类别排序来完成搜索结果排序。 索引一般是从几百到几个 GB 不等大小的文件。如果页面在执行搜索的过程中打开大的索引,往往是一个非常耗时的过程。在这种情况下就需

18、要缓存 IndexReader 和 Search,不过有时候也不用每次在用户提出相应的的搜索 请求后都重新打开索引再执行搜索。因此搜索页面的搜索缓存和更新也是十分必要的。 (3)实现关键词高亮显示 关键词一般都会高亮显示出来。 (4)实现分类统计视图 分类是多层次的,用户有时候可以沿着某一类继续细化,这有点像 OLAP应用模式,它可以用Lucene完成的。 5 (5)实现相似文档搜索 有时候需要检索与给定文档相似的文档。 (6)集成其他功能 分类统计、拼写检查、再次查找、相关搜索,这些经常需要从结果中缩小再次查找记录;分析用户搜索行为和信息需求的重要更新时就需要用搜索日志;在搜索日志的分析过程

19、中,包含大量 的爬虫信息,这需要把它和普通用户的搜索内容区分出来。 1.3 搜索引擎在文本特征中的应用 特征文本信息的搜索和分类必须要靠搜索引擎来完成。专业的搜索引擎搜索到的不仅仅包括文本信息,还包括图片、声音、视频等多媒体信息,但主要还是针对文本信息的搜索。搜索引擎运用蜘蛛程序遍历 Web并从中抓取网页信息到本地数据库,通过对数据库的相关操作来获取用户所需要的结果信息。 运用搜索引擎的相关技术,这是实现这个系统的关键和重要环节,尤其是运用搜索引擎中的蜘蛛程序。搜索引擎 完成把所要查询的关键字与网上文本信息进行匹配的任务,进而对文本 信息进行分类和处理。 6 2 在特征文本中文本挖掘的重要性

20、2.1 文本挖掘的发展 虽然信息通讯技术的发展以及由此带来的信息量的增长,极大地促进了人们的沟通和交流,为人类的文明和发展做出了巨大的贡献。但同时,信息爆炸式增长带来的消极影响正在凸现。在此,国际上提出了多项文本挖掘计划,以期对网上 “ 堆积如山 ” 的巨大的信息矿床进行有效的过滤、开发与综合利用,把信息变成能够方便利用的知识和财富。 NIST(美国国家技术标准局)和 DARPA(美国国防高级研究计划局)组织的 TREC(文本检索会议)会议是国际上文本挖掘领 域的著名评测会议,从 1992年起每年召开一次,迄今已经召开了 19届。 1991-1998年, DARPA资助了 TIPSTER文本计

21、划,主要着眼于三项基础技术的评测:文档检测、信息提取、摘要。 2003年, DARPA开始启动以机器学习为核心的计划 PAL4,为期 5年,首期 (1-1.5年 )投资 2900万美元。 PAL包含 2个子计划:其中, CALO5 子计划是整个 PAL计划的核心 (2200万 ),将机器学习技术放到了国家安全的角度来考虑。美国主要大学参加这个子计划。由此可见,对海量网络信息的有效处理和深层次综合利用离不开文本挖 掘技术,文本挖掘将成为人们应对信息时代挑战的强大利器之一 2。 2.2 文本挖掘的相关技术 文本挖掘的对象是半结构(如 Web网页)或者无结构(如纯文本)的自然语言文本。它从大规模文本

22、数据集中发现规律,这些规律是隐藏的、新颖的、重要的、潜在有用的。从文本中提取适当的特征,这是文本挖掘首先要做的,然后将文本转化成计算机能够理解的数字形式。根据实际的需要 (处理速度和精度 ),可以对文本中的特征进行选择优化,然后采用各种文本挖掘方法和技术来发现隐藏的知识模式,以满足用户的最终需求,指导人们形成有用的知识。 用信息抽取技术 (Information Ex traction, IE)进行非结构化的信息挖掘,这是文本挖掘前期的准备工作。不过随着 IE 系统的发展,精确的查询相匹配概念和文字找出关系,这两个概念的出现,而实现两者,适合的方法就是用信息抽取技术。类似于传统的数据挖掘系统一样,“文本挖掘”这个词被应用到这些系统中。针对 IE 对自然语言处理的不足,文本挖掘可以通过统计共现方法处理自然语言。 对文本数据源进行数据预处理是由于计算机不能直接处理人类的自然语言,而且文本具有有限的结构,有的甚至没有结构。数据预处理主要包括分词技术 (英文文本 则需要 Stemming 技术 )和特征表示和特征提取。因为中文词与词之间没有固有的间隔符 (空格 ),需要进行分词处理 3。 文本经过分词、特征表示和特征提取后就可进行挖掘了。对于非结构化问题,一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘,不过有一点需要注意的就是数据本身非常复

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。