1、毕业设计文献综述 计算机科学与技术 文本表示模型的研究和实现 一 、 前言部分 20 世纪 90 年代以来 , Internet 以惊人的速度发展起来 ,它容纳了海量的各种类型的原始信息 ,包括文本信息、声音信息、图象信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类 ,从而更好地帮助人们把握文本信息。近年来 ,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合 ,有效地提高了信息服务的质量。 向量空 间模型 (VSM: Vector Space Model)由 Sal
2、ton等人于 60 年代提出,并成功地应用于著名的 SMART文本检索系统。 VSM概念简单 ,把对文本内容的处理简化为向量空间中的向量运算 ,并且它以空间上的相似度表达语义的相似度 ,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。 向量空间模型 (或 词组向量模型 ) 是一个应用于信息过滤 , 信息撷取 , 索引 以及评估相关性的代数模型。 SMART是首个使用这个模型 的信息检索系统。 1.1 系统任务 简单地说 ,文本分类系统的任务是 :在给定的分类体系下 ,根据文本的内容自动地确定文本关联的类别。
3、从数学角度来看 ,文本分类是一个映射的过程 ,它将未标明类别的文本映射到已有的类别中。该映射可以是一一映射 ,也可以是一对多的映射 ,因为通常一篇文本可以同多个类别相关联 ,用数学公式表示如下 : f :A B 其中 ,A 为待分类的文本集合 ,B 为分类体系中的类别集合。文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息 ,总结出分类的规律性而建立的判别公式和判别规则 ;然后在遇到新 文本时 ,根据总结出的判别规则 ,确定文本相关的类别。 1.2 评估方法 因为文本分类从根本上说是一个映射过程 ,所以评估文本分类系统的标志是映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂
4、程度 ,而评估映射准确程度的参照物是通过专家思考判断后对文本的分类结果 (这里假设人工分类完全正确并且排除个人思维差异的因素 ) 。与人工分类结果越相近 ,分类的准确程度就越高。这里隐含了评估文本分类系统的两个指标 :准确率和查全率。 准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率 ,其数学公式表示如下 : 准确率 (Precision) = 实际分类的文本数分类的正确文本数 查全率是人工分类结果应有的文本中分类系统吻 合的文本所占的比率 ,其数学公式表示如下 : 查全率 (Recall) = 应有文本数分类的正确文本数 准确率和查全率反映了分类质量的两个不同方面 ,两者必须综合考
5、虑 ,不可偏废。因此 ,存在一种新的评估指标 F1 测试值 ,其数学公式如下 : F1 测试值 = 查权率准确率 查权率准确率 2 另外 ,有微平均和宏平均两种计算准确 率、查全率和 F1 值的方法。 微平均 :计算每一类的准确率、查全率和 F1 值。 宏平均 :计算全部类的准确率、查全率和 F1 值。 所有文本分类系统的目标都是使文本分类过程更准确 ,更快速。 二 、 主题部分 2. 1 中文搜索引擎的现状 从 1994年起, Internet在中国开始蓬勃发展。从 1997年国内开始发展面向中文信息检索的中文搜索引擎 2f31,到目前已经投入使用或试运行的主要有以下几个 : 搜狐 (htt
6、p:)“搜狐”是由爱特信公司于 1998 年 2 月 25 日在京隆重推出的有“中文网路神探”之称的大型网上中文查找工具,其技术是由麻省理工学院支持的。它是以提供分类目录为主的中文搜索引擎,其分类原则是以图书分类为基础,与日常应用习惯相结合,由编辑人员分类,因而分类质量较高,但更新速度慢,查全率较低。 天网 (http:/)“天网”是由北京大学计算机系统网络研究室开发的网页资源索引的查找服务系统,是 CERNet“九五”攻关项目的一部分,信息来源是国内 CERNet, ChinaNet, CASNet, GBNet 四大网络,采用 Robots自 动发现和收集信息。该系统有中、英文两个界面,可
7、进行中英文关键词的检索,支持复杂查询,检索速度快,反馈信息丰富,包括网址、摘要、最后修改时间、长度、相关度、编码类型等。 新浪 (http:/)“新浪”是最大的中文门户网站,收录了全球资讯逾万的中文网址,并分成娱乐休闲、商业经济、社会科学、教育就业、社会文化、参考资料、政法军事、体育健身、科学技术、新闻媒体、文学艺术、电脑网络、医疗健康、生活服务、参考资料、国家地域等 15大类,其下分多个小类 ;并提供了中文关键词的搜索功能。 百度 (http:/):由 1999年底成立于美国硅谷的百度公司 (B, Inc)开发。采用了基于超链分析的方法进行相关度评价,能够客观分析网页所包含的信息,提高了检索
8、结果相关性。为用户提供“网页快照”功能,在快照中对用户的查询字符串用不同颜色在网页中标记,方便了用户的查询。 搜索客 (http:/), 1997 年 11 月 3 日, ChinaByte 公司在北京发布了中文搜索引擎“搜索客”。它采用机器人自动搜索技术,快速、准确地自动抓取新增站点,并及时更新己抓取的站点。它还兼容中文简体 (GB)和中文繁体 (BIG5)两种检索方式。 悠游 (http:/),悠游是由香港联克公司和北京优联克科技开发有限公司共同开发的。它能对网上新网页和每日更新的信息进行自动搜索、识别,并对电脑、科技、社会、时事、财经等 12个主题进行分类。它还能自动转换简繁体,自动收集
9、英文、中文国标码和大五码的网页。“悠游”不仅仅是一个中文搜索引擎,而且能使用先进的技术,减少人工介入的工作量,进行大规模的中文信息处理。 雅虎中文版 (http:/),雅虎公司于 1998年 5月 4日新设立的中文搜索引擎。它并非英文版的全文翻译,而是按照英文版的铺排方法,将 1 万多个中文网址以 14 个类别列出,提供 Internet 网上的中文站点目录信息检索服务,用户可以利用繁体或简体中文进行搜索,返回的结果有序而连贯,但对结果的描述很概要。 目前,各种中文搜索引擎的数量越来越多,但是都有局限性有的只适合某个领域,查全率低,有些比较全面的又需要有大量的专业人员分类、索引,成本高,更新时
10、间长。总之,这些搜索引擎都有待改进。 2.2 中文搜索 引擎的不足 由于网上信息呈现出的无组织、多结构、更新快等特点,导致搜索引擎信息检索的查全率、查准率较低。这里,把中文搜索引擎的主要不足统计如下 : (1)搜索引擎对自然语言提问没有理解能力 . 目前,大多数搜索引擎只提供分类浏览的查询方式和关键词全文检索查询方式,不支持自然语言理解。 (2)网络信息不断更新与搜索引擎相对不便之间的矛盾 . Internet上的信息源是动态变化的,搜索引擎无法做出调整,使用户及时得到有关的信息 ; (3)没有用户兴趣反馈服务 ,没有个性化服务 对用户一贯查询的信息进行重复查找,也 不能对用户的意见进行跟踪,
11、获取用户对查询结果的评价,以便为以后的查询做预先分析 ; (4)收集范围有限 Internet 上信息资源具有分散、多结构、多服务类型的特点,搜索引擎很难收集到全部信息,一般只能收集很少的一部分 ; (5)用户和检索系统的交互方式比较单调。 现有系统普遍采用相关反馈技术作为用户和系统进行交互的主要手段,但这种反馈相当简单,只停留在用户满意、不满意、一般这一层,并没有进行推理或机器学习。 传统的搜索引擎归纳下来主要有两大缺点 :1,分析索引模块中未采用自然语言理解技 术,导致无法分辨自然语言中的语义模糊性 ;2.人机界面单调,使用效率低,检索方法不强大。 三 、 总结部分 文本分类是信息处理的一
12、项重要而基本的研究方向,无论在数字化图书馆还是在 Internet信息处理领域,该技术都有很广阔的应用前景。本章对本文所做的主要工作进行了总结,并对研究中存在的问题和有待于进一步研究的问题进行了分析,在此基础上对文本分类的研究前景进行了展望。 3.1 总结 本文着重讨论了基于向量空间模型的文本分类系统,并对概念空间引入文本分类进行了初步的研究和探讨 : 1)讨论了向量空间模型这一 目前大规模文本处理流行的模型。分析了基于向量空间模型的文本分类的关键技术,包括 :文本的表示、向量空间模型、特征类型的确定、特征的抽取与选择和文本分类方法等问题。 2)传统的向量空间模型不能区别不同位置的文本特征项表
13、达文本内容的不同能力。针对该问题,本文运用位置修正因子调整特征项权重,提高了向量空间模型的性能。 3)本文结合已有的文本信息描述和特征抽取方法,综合考虑了频度、分散度和集中度等三项指标,设计并实现了一种新的特征抽取算法,使得选出的特征项整体优化。 4)本文实现了传统的基于类 中心分类法的文本分类系统,通过分析该方法存在的问题,提出并实现了二级分类模式的文本分类系统。实验结果表明,二级分类模式分类系统具有较高的精确度、召回率和 Fl测量值。 5)概念空间使用深层的概念,而不仅仅是表象的词,因而能够深入描述文本之间的内在联系,有利于挖掘文本集的深层结构。采用概念空间代替词频空间来表示文本,不仅能够
14、大大降低特征维数,提高文本分类效率,还能有效滤除噪声,提高文本分类的正确率。 3.2 研究前景展望 由于时间限制,文本的研究内容还有以下几个方面的工作值得进一步深入研究: 1)向量 空间模型的进一步研究,需要考虑的不仅仅是向量空间模型如何计算权重、相似度等传统问题,还应该考虑是否能够提出更好的文本表示方法,从根本上改进信息处理的性能。 2)特征抽取算法和文本分类算法是文本分类系统的核心,我们要进一步研究出更好的特征抽取算法和文本分类算法,相得益彰,使系统取得满意的分类效果。 3)引入概念空间,不仅能够大大降低特征维数,提高文本分类效率,还能有效滤除噪声,提高文本分类的正确率,我们将进一步研究概
15、念空间的特点和性质,使之应用于更多的领域。 四 参考文献 1尹桂秀一种 中文文本自动分类方法的研究 .实践研究, 2002, 2(25). 2都云程,卢献华 .中文搜索引擎现状与展望 .中文信息学报, 1999,13 3储荷婷等 .Internet网络信息检索一原理、工具、技巧 .清华大学出版社, 1999. 4蔡栋 .第二代搜索引擎模式探析 .情报理论与实践 2001.(3). 5陈章太、于根元 .计算语言学概论 .商务印书馆, 2003. 6Fabrizio Sebastiani. Machine Learning in Automated Text Categorization. ACM
16、computing Surveysk, 2002, 34(1):11-12, 32-33 7王玲,马文庆 .搜索引擎技术的现状与展望 .现代情报 .2004,(8):71-72 8王辉,陈凌,张丽娟 .信息推拉技术 .情报科学 .2004,21(12):1440-1443 9张小兵,李靖 .信息过滤技术发展趋势 .信息网络安全 .2004,(2):17-18 10徐小琳,胡喜戎,程时端 .信息过滤技术和个性化信息服务闭 .计算机工程与应用 .2003,39(9):182-184 11Young joong Ko*, Jinwoo Park, Jungyun Seo. Improving tex
17、t categorization using theimportance of sentencesJ.Information Processing and Management 40 (2004) 65-79 12韩家炜,堪博数据挖掘概念与技术北京:机械工业出版社, 2007 13吴科基于向量空间模型的中文文本分类的研究济南:山东大学软件学院, 2004 14薛为民,陆玉昌文本挖 掘技术研究北京联合大学学报(自然科学版), 2005, 19(4): 59-63 15 HUANG C C, CHUANG SL, CHEN L F. Live classifier: creating hierarchical text classifiers through Web corpora C/ /Proc of the 13 th Int Conferences onWorldWideWeb. 2004: 184-192.