1、毕业设计文献综述 计算机科学与技术 文本特征信息的搜索与分类系统设计 一、前言部分 随着信息技术的应用与发展、互联网的普及, 网络资源呈现一种爆炸式的增长态势, 对于我们的认知与决策带来了很大的压力, 如何有效地组织和管理这些信息并快速、准确、全面地从中找到用户所需要的信息是当前信息技术领域面临的一大挑战。 网络中的资源不仅包括文本信息,声音信息,还包含了图像信息。对于此种情况,现特针对文本信息这一块进行研究和探索。 文本信息 的搜索 要求用户提交查询关键词 (文本特征) 来查找与之匹配的 一系列 信息 ,通过相关的整理,进而能够 让用户有效、迅捷地获取所要的文本信息。 二、主题部分 文本特征
2、信息的搜索与分类离不开搜索引擎技术和文本挖掘相关的技术。 随着互联网的普及和网上信息的爆炸式的增长,搜索引擎越来越引起人们的重视。如今,搜索引擎已成为仅次于门户的互联网第二大核心技术。在短短十年的时间内,搜索引擎迅猛地发展起来。最近几年,搜索引擎已成为一个非常热门的话题。 对于搜索引擎发展的几个阶段、各个阶段在年代上的划分以及各阶段的主要特点,并没有一个统一的说法。大部分人认为,第一代搜索引擎以雅虎为标志,主要依靠人工分拣信息。用分类目录搜索信息 ;第二代以 Google 为代表,依靠机器抓取、分析进行网页搜索 1。对于第三代和第四代搜索引擎,至今还没有明确的划分标准。也有人认为第三代搜索引擎
3、是第一代与第二代搜索引擎的结合 1。至于第四代搜索引擎,则更是说法不一。 1999 年和 2001 年把搜索引擎的发展分割成了 3 个阶段 。 第一个阶段里研究搜索引擎的期刊论文相对较少,大部分搜索引擎技术处于萌芽阶段。此时各种搜索引擎概念相继出现,如目录式搜索引擎、全文搜索引擎、元搜索引擎等。这一阶段,词频相对较高的关键词是全文检索、智能检索、多媒体、图像搜索、语义网络、 分类目录、分类主题等。这个时期分类搜索是网络搜索的主流。 搜索引擎在第二个阶段里开始迅速发展。最负盛名的搜索引擎当数 Google,它在 1999 年以不可抵挡的势头走向世界。 Google 的出现带动了新技术 PageR
4、ank 和锚文本技术的发展。此阶段的热点词语有关键词检索、倒排索引、全文索引、自动摘要、链接分析等。这段时期链接分析技术、PageRank 算法以及 Hit 算法等如火如荼地展开。人们基本认为 Web 信息检索开始进入了新一代搜索引擎阶段 2。 第三个阶段里搜索引擎的研究变得非常火热,搜索引擎越来越向智能化、个 性化、专业化的方向发展,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品。通过对文本分类、聚类、用户行为分析、分布式、相关反馈、智能代理、查询扩展等高频词的分析,我们可以看出,人工智能、数据库、数据挖掘、自然语言理解等领域的研究有力地促进了搜索引擎的发展。 搜索引擎技术现在已成为计算机
5、产业界和学术界争相研究和开发的对象。通过对搜索引擎技术和检索任务方面的词语进行统计和分析,一方面可以反映出学术界对搜索引擎的关注程度,另一方面也能大致分析出搜索引擎的发展现状以及发展趋势。 信息通讯技术的发展及由此带来的信息量 的增长,极大地促进了人们的沟通和交流,为人类的文明和发展做出了巨大的贡献。但同时,信息爆炸式增长带来的消极影响正在凸现。在此,国际上提出了多项文本挖掘计划,以期对网上 “ 堆积如山 ” 的巨大的信息矿床进行有效的过滤、开发与综合利用,把信息变成能够方便利用的知识和财富。 NIST(美国国家技术标准局)和 DARPA(美国国防高级研究计划局)组织的 TREC(文本检索会议
6、)会议是国际上文本挖掘领域的著名评测会议,从 1992 年起每年召开一次,迄今已经召开了 13 届 3。 1991-1998 年, DARPA 资助了 TIPSTER 文本计划,主要着眼于三项基础技术的评测:文档检测、信息提取、摘要。 2003 年, DARPA 开始启动以机器学习为核心的计划 PAL4,为期 5 年,首期 (1-1.5 年 )投资 2900 万美元。 PAL 包含 2 个子计划:其中, CALO5 子计划是整个 PAL 计划的核心 (2200 万 ),将机器学习技术放到了国家安全的角度来考虑。美国主要大学与公司参加这个子计划。由此可见,对海量网络信息的有效处理和深层次综合利用
7、离不开文本挖掘技术,文本挖掘将成为人们应对信息时代挑战的强大利器之一 4。 文本挖掘是以半结构(如 Web 网页)或者无结构(如纯文 本)的自然语言文本为对象的数据挖掘。它是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在有用的规律的过程 5。文本挖掘首先要从文本中提取适当的特征,将文本表示成计算机能够理解的数字形式。根据处理速度和精度的需要,可以对文本中的特征进行选择优化。然后采用各种文本挖掘方法发现隐藏的知识模式,以满足用户评价标准的模式最终输出,成为指导人们实践的有用知识。 特征 6表示是指以一定特征项 (如词条或描述 )来代表文档,在文本挖掘时只需对这些特征项进行处理,从而实现对非
8、结构化的文本的处理,这是一个非结构化向结构化转 化的处理步骤。特征表示的构造过程就是挖掘模型的构造过程,特征表示模型有多种,常用的有布尔逻辑型、概率型、向量空间型等 7。我们采用了应用较多的向量空间模型 (Vector Space Model , VSM )。 向量空间模型 (Vector Space Model, VSM)是由 G. Salton 等人在 20 世纪 60 年代提出的信息检索模型,是效果较好、近些年来被广泛应用的一种方法 。 最典型的向量空间模型原型系统是康奈尔大学的 SMART(System for the Manipulation and Retrieval of Tex
9、t)系统 8,它提供源代码开放下载,目前已经被成千上万的研究者所采用。向量空间模型 (Vector Space Model)把文本表示成 n 维欧式空间的向量,并用它们之间的夹角余弦作为相似性的度量。在向量空间模型中,首先要建立文本向量和用户查询的向量,然后对这些向量进行相似性计算 (匹配运算 ),在匹配结果基础上进行相关反馈,以优化用户的查询,提高检索效率 9。 三、总结部分 虽然各个搜索引擎的具体实现不尽相同,但是一般包含爬虫程序、分析程序、索引程序、检索程序和用户接口界面 5 个基本部分,而且 大致的工作原理是相同的。 WEB 搜索引擎主要是通过爬虫程序定期遍历互联网,将网页的统一资源定
10、位符( URL)、内容和采集时间等相关信息收集到 WEB服务器中,然后通过必要的信息索引和存储优化处理,利用特定的检索界面对 WEB 用户直接提供服务 10。 向量空间模型可将文本和查询简化为项及权重集合的向量表示,从而把检索操作变成向量空间上的向量运算,其权重计算可以通过简单的频数统计来完成,通过定量分析,匹配文本和查询。在这个基础上,引入各种成熟的统计方法,更大程度地挖掘文本中蕴涵的语义信息,如主成分分析、因子分析、聚类 分析等等。具有较强的可计算性和可操作性的特点,特别是随着网络信息的迅速膨胀,其应用已经不仅仅局限于文本检索、自动文摘、关键词自动提取等传统问题,还可以应用到搜索引擎、个人
11、信息代理、网上新闻发布等信息检索领域 11。在向量空间模型中,文档的内容被形式化为多维空间的一个点,把文档以向量的形式定义到实数域中,能够使用模式识别和其它领域中各种成熟的计算方法,极大地提高自然语言文档的可计算性和可操作性,因而在文本过滤中获得广泛应用并取得良好效果。 向量空间模型的缺点在于项之间线性无关的假设,在自然语言中,词或短语之 间存在着十分密切的联系,即存在 “ 斜交 ” 现象,很难满足假设条件,对计算结果的可靠性造成一定的影响。此外,将复杂的语义关系,归结为简单的向量结构,将会丢失许多有价值的线索。 通过以上分析,可以看出 特征 文本 信息的搜索与 分类技术存在着以下几种发展趋势
12、: 一是新 的搜索引擎 不断涌现:比如 智能化搜索引擎 。新 引擎 出现得益于人工智能、机器学习、进化计算等领域中新技术的涌现和发展。 二是传统方法的进一步发展:比如支持向量机 12的不断改进发展。传统分类方法的发展主要利用了机器学习、进化计算、数据挖掘、模糊集和粗糙集 13等 理论中的原理和方法。 三是多技术融合 14:一方面根据实际问题需要,有针对性地综合众多领域的技术,以提高分类的性能;另一方面,文本、语音和图像 搜索分类 技术的融合 15,随着互联网和多媒体技术的进一步发展,文本 搜索和 分类技术将与图像识别、语音识别融合,比如图像文本的分类、语音文本的分类、多媒体数据库索引等。 四、
13、参考文献 1 冯英健 .什么是第三代搜索引擎 EB/OL.http:/www. marketingman. Net,2005-02-18. 2 马少平 ,张敏 .信息检索研究 :过去三十年 中我们走了多远 C.中国中文信息学会二十五周年学术会议 .北京 :清华大学计算机科学与技术系 ,2006:11-17. 3 周旭 .知识经济 J.重庆市科学技术协会 ,2004,12(2):50-54. 4 程红莉,周宁 ,肖爽 .文本驱动的商务智能 研究 J.情报科学 ,2007(10):1525 1529 5 张忠平 .文本挖掘( TextMining) R.河北 :燕京大学 计算机科学与工程系 ,20
14、02.03.18. 6 袁军鹏 ,朱东华 ,李毅等 .文本挖掘技术研究进展 J.计算机应用研究 ,2006(2):1 4 7 Koller D,Sahami M.Hierarchically classifying documents using very few wordsJ.ICML97,1997:170-178. 8 Buckley C.Implementation of the SMART information retrievalsystemR.New York:Cornell University, 1985. 9 Fung G,Mangasarian O L.Incrementa
15、l support vector machine classificationC.Proceedings of the Second SIAM International Conference on DataMining.SIAM(2002).2002: 247-260. 10 李树青 ,韩忠愿 .个性化搜索引擎原理与技术 M.北京 :科学出版社 ,2008. 11 夏迎炬 .文本过滤关键技术研究 D.上海 :复旦大学 ,2003. 12 林冬雪 .基于改进向量空间模型的网络信息检索技 术研究 D.四川 :重庆大学 ,2005. 13 付雪峰 ,王明文 .基于模糊 粗糙集的文本分类方法 J.2004 年度全国搜索引擎和网上信息挖掘学术研讨会 .华南理工大学学报 (自然科学版 ),2004,32:73-76. 14 刘挺 .搜索引擎 :信息检索实践 M.北京 :机械工业出版社 ,2010. 15 袁津生 ,蔡岳 .搜索引擎原理与实践 M.北京 :北京邮电大学出版社 ,2008.