ImageVerifierCode 换一换
格式:DOC , 页数:7 ,大小:48KB ,
资源ID:61361      下载积分:6 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-61361.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(文本表示模型的研究与实现【开题报告】.doc)为本站会员(一***)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

文本表示模型的研究与实现【开题报告】.doc

1、毕业设计开题报告 计算机科学与技术 文本表示模型的研究与实现 一 、 选题的背景、意义 Internet已被公认为是 20世纪末人类科技史的里程碑,它作为一个开放的、分布式的信息空间,近年来得到了飞速发展。随着工 nternet 上信息量爆炸性的增长,人们很难从大量的信息中迅速有效地提取出所需信息,出现所谓的“信息迷向”的现象。如果计算机能够在信息的辨识和处理方面,对用户提供适当的支持和帮助,那将能够极大地改善目前用户面临的困境和提高信息使用效率。 基于这种需求,人们对利用计算机进行智能化信息处理进行了大量 研究。根据侧重点不同,大致包括信息检索、信息抽取、文本分类、文本摘要等研究领域,这些研

2、究都旨在帮助用户对工 nternet 上的大量信息加以辨识、分类,按用户兴趣加以筛选、排序,甚至提炼出要点形成摘录。这些研究成果和搜索引擎相结合,构成智能化搜索引擎,极大地提高了用户搜寻信息的能力。另外,这些技术也应用在电子商务、数据库、 web 页分类管理、信息过滤、个性化人机界面、个人信 函助理等领域,有效地提高了信息服务的质量。 在以上应用领域中,文本分类是一个广为关注的课题,这项技术既有潜在的市场应用价值,又具有相当的难度 。这里说的“分类”是一个广义的概念包括分类和聚类 :如果分类原则是事先通过事例 (包括正例和反例 )告诉计算机的,则计算机在事例的基础上形成分类机制的过程称为有监督

3、的分类,简称归类或分类 ;如果事先没有任何示例,全凭信息本身在某种角度上的相似性来分类,这种分类过程就称为无监督的分类,简称聚类。分类和聚类可以在较大程度上方便地为用户准确定位所需的信息,解决网上信息杂乱的现象,因此对文本进行自动分类和聚类成为信息检索过程中具有较大实用价值的关键技术。本文研究和探讨的是第一种分类,即有监督的分类。 国外对文本分类的研究始 于 20世纪 50 年代末, H.P.Luhn 首先将词频统计思想用于分类,在该领域进行了开创性的研究。 1960年, Maron 在 Journal of ASM上发表了有关自动分类的第一篇论文 On relevance, probabil

4、istic indexing and information retrieval),其后许多学者在这一领域进行了卓有成效的研究工作。 从 20世纪 60 年代直到 20世纪 80 年代末,这期间最有效的文本分类系统一直是由专家人工构建的基于知识工程技术的分类系统。其典型应用就是卡内基集团为路透社开发 的 Construe 系统 fill,它主要是由专业人员编写了一些分类规则来指导分类,在 Reuters 的部分语料库上它的效果非常好,平均准确率和召回率大约都可达到 90%,但是在其他的应用领域采用 Construe 系统将会消耗大量的人力和物力。这种自动分类器构造方法的缺点是知识获取瓶颈的存在

5、。它必须要为领域专家获取的知识和知识工程师的知识表示之间架起桥梁,二者缺一不可,如果这种分类器被转到完全不同的领域,工作必须得重新开始。 90 年代初期,基于机器学习的分类技术开始取代基于知识工程的方法成为文本分类的主流技术。这种算法 通过归纳文本集的特征自动创建一个分类器,这些文本集合事先被领域专家人工地分类到类集 C-(c1, c2l, cm)的各个类 ci中,分类器可作为一个规则决定文本 di是否属于类 c;。如果类集 C被更新,或者系统要应用于其他不同的领域,只需要重新构造一个人工分类文本集合,通过机器学习,自动地构造一个分类器。显然由于这种分类方法不再需要知识工程师和领域专家的介入,

6、节约了大量的专家人力资源,同时加快了分类系统的建立速度。 近年来,研究者们机器学习的技术进行了大胆的探讨,提出了多种分类模型和分类算法,如基于向量空间模型的 Rocchio 分类算法及其一系列的改进算法,K近邻法 (KNN),决策树 (Decision Tree),朴素贝叶斯 (Naive Bayes), 神经网络 (Neural network),支持向量机 (Support Vector Machine)等等这些方法在英文以及欧洲语种文本分类上有广泛的研究,均取得了不错的效果。国外很多研究人员对英文文本分类领域的各个问题都有相当深入的研究,对几种流行的方法进行了大量的对比研究。还有一些研究

7、人员研究表明结合不同的分类器能够提高分类的精度。 自从文本分类的概念在国内出现以来, 该技术在国内得到了长足的发展。然而和国外的发展状况相比,发展水平仍相对滞后。一方面由于国内起步较晚,另一方面则由于国内的工作主要是针对中文文本。由于汉语有许多不同于英语的特点,使得中文文本分类的难度更大。比如,汉语的书面形式是连续书写的,词与词之间没有自然的界限,在进行文本分类之前,首先要对文本进行分词。另外,在不同的语言的研究工作中,句法分析和语义分析所占的比例是不同的。在英语中,句法分析比语义分析的比例要大,而汉语是一种分析型语言,语义分析在汉语研究中起着举足轻重的作用,其所占的比例比句法分析要大得多。

8、这使得在中文文本分类中,通过句法分析等基于语法的手段把握文本的内容变得更加困。就发展历史而言,国内的文本分类的发展经历了三个阶段 :国外研究成果引进阶段、分类技术完善阶段以及面向汉语分类技术的发展阶段 ;而就发展方向来看,则有基于外延的分类方法和基于概念的分类方法之分。中国科学院、清华大学、上海交通大学、复旦大学、南京大学、一些大学的著名学者在该领域做出了一些研究成果,研制出一批基于词典法和基于专家系统的分类系统。由于中文与英文存在较大的差异,不能照搬国外的研究成果,中文文本分类的研究基本上是在英文文本分类的研 究策略上,结合中文文本的特点,继而形成中文文本分类研究体系。 二 、 研究的基本内

9、容与拟解决的主要问题 本文主要研究并实现了基于向量空间模型的中文文本自动分类系统,对固定的文本数据集进行了实验分析,结果表明该系统具有较高的精确度、召回率和Fl测量值。本文研究内容有 : 1)基于类中心分类法的文本分类系统的实现 论文在给出文本分类系统整体方案的基础上,实现了一个基于类中心分类法的文本分类系统,验证了整体方案的可行性,并以类中心分类法的分类结果作为与其它分类算法进行比较的基准。 2)向量空间模 型的改进 传统的向量空间模型不能区别不同位置的文本特征项表达文本内容的不同能力。针对该问题,本文运用位置修正因子调整特征项权重,提高了向量空间模型的性能。 3)文本信息的描述及特征的抽取

10、本文结合已有的文本信息描述和特征抽取方法,综合考虑了频度、分散度和集中度等三项指标,设计并实现了一种新的特征抽取算法,使得选出的特征项整体优化。 4)基于二级分类模式的中文文本分类方法 本文对文本分类中所涉及的关键技术进行了研究和探讨,通过考察以往文本自动分类系统的研究经验,提出一种分类准确率 高的基于二级分类模式的文本分类方法。 5)概念空间及其在文本分类中的应用 概念空间使用深层的概念,而不仅仅是表象的词,因而能够深入描述文本之间的内在联系,有利于挖掘文本集的深层结构。采用概念空间代替词频空间来表示文本,不仅能够大大降低特征维数,提高文本分类效率,还能有效滤除噪声,提高文本分类的正确率。

11、文本分类的流程如图 2-1 所示 :属性选择、分类训练和测试评估构成一个循环,根据测试结果,调整属性选择和分类训练的参数,使得分类器具有更佳的分类效果。从该图可以看出,文本分类需要解决如下 5个问题 : 1)获取训练文本集 训练文本集选择是否合适对文本分类器的性能有较大影响。训练文本集应该能够广泛代表分类系统所要处理的各个类别中的文本。一般地,训练文本集应该是公认的经人工分类的语料库。 2)属性选择 语言是一个开放的系统,作为语言的一种书面物化或者电子化的文本也是开放的,其大小、结构以及包含的语言信息也都是开放的。目前的文本分类方法和系统都采用词和词组作为表征文本语义的属性,因此属性的数量很大

12、。文本分类系统应该选择尽可能少、准确并且与文本主题密切相关的属性进行文本分类。 3)建立文本表示模型 即选用怎样的形式 组织属性来表征文本的问题。目前的文本表示模型主要有布尔模型和向量空间模型。 4)选择分类方法 即选择用什么方法建立属性到文本类别的映射关系,这是文本分类的核心问题。 三、研究的方法与技术路线、研究难点、预期达到的目标 3.1 研究的方法 文献研究法主要指收集、鉴别、整理文献,并通过对文献的研究,形成对事实科学认识的方法。首先,通过阅读大量的有关文本分类与向量空间文献,分析出可能存在的应用领域和目前发展上的不足。以此确定毕业设计的选题。然后,根据相关文献,对这个课题进行可行性分

13、析和需求分析,从而确定自 己的研究方向和实现方法。 . 3. 2 技术路线 3.3 研究难点 1)缺少统一的中文语料库 至今尚无标准的用于文本分类的中文语料库,各个研究者分头收集自己的训练文本集,并在此基础上开展研究,因此系统的性能可比性不强。同时,由于财力人力有限,中文语料库的规模普遍不大。 2)适用于中文的向量空间模型的研究还不十分成熟 国内的学者,例如吴立德和黄营著提出可以使用字、词、概念作为中文的特征项构成向量空间模型,并对以此为基础的文本分类系统进行了初步的性能比较。但是,对于概念的定义不够清晰,也没 有全面的比较和测试系统。另外,在特征项抽取算法方面也缺少系统而深入的研究。 3)文

14、本分类技术与其他信息技术尚未很好地结合 国内的文本分类系统主要应用于图书馆等专业信息处理机构,在信息服务领域,除了与搜索引擎有所结合外,文本分类技术与其他信息技术还没有很好的结合,还没有得到充分的应用。 3.4 预期目标 本文对中文文本分类涉及的技术进行了深入的研究,包括中文分词、量空间模型、特征抽取、特征项权重算法和分类算法。提出并实现了一套完整的基于向量空间模型的中文文本分类系统,为究分类技术提供了实验平台。考查了特征抽取、特征项权重算法、分类算法对分类效果的影晌对其原因进行了分析。 四、论文详细工作进度和安排 第七学期第 10 周至第 15 周( 2010 年 12 月 27 日前):文

15、献检索和资料收集,完成毕业论文(设计)文献综述、开题报告和外文翻译; 第八学期 第 1周 至第 3周( 2011年 03月 19日前):撰写论文提纲,完成毕业论文(设计)初稿;需求分析,系统设计; 第八学期 第 4周 至第 11周( 2011年 05月 11日前):详细设计; 第八学期第 12周( 2011年 05月 18 日前):完成应用软件系统的设计,毕业论文定稿,送指导老师和评 阅老师评阅,准备答辩; 第八学期第 13周:参加毕业论文(设计)答辩。 五、主要参考文献 【 1】王玲,马文庆 .搜索引擎技术的现状与展望 .现代情报 .2004,(8):71-72 【 2】王辉,陈凌,张丽娟

16、.信息推拉技术 .情报科学 .2004, 21(12):1440-1443 【 3】徐险峰 .基于因特网的网络信息资源个性化服务研究 .图书馆建设 .2004(5):62-64 【 4】张小兵,李靖 .信息过滤技术发展趋势 .信息网络安全 .2004, (2):17-18 【 5】徐小琳,阙喜戎,程时端 .信息过滤技术和个性化信息服务 j.计算机工程与应用 .2003,39(9):182-I84 【 6】李国辉,汤大权,武德峰 .信息组织与检索 .北京 :科学出版社, 2003 【 7】蔡栋 .第二代搜索引擎模式探析 .情报理论与实践 2001.(3). 【 8】马静 .搜索引擎机理剖析 .中

17、国信息导报 2001, 6. 【 9】 Sam Scott. Feature Engineering for a symbolic approach to text classification.Thesis for Master degree, Ottawa-Carleton Institude for Comprter Science,1998 【 10】 Xie Chongfeng, Li Xing. A Sequence- based Automatic Text Classification Algorithm.Journal of Software, 2002,13(4): 783-788 【 11】 Sebastiani, F. Machine Learning in Automated Text Categorization. ACM Computing Surveys. 2002,34(1):1-47 【 12】俞士坟,段慧明等 .北京大学现代汉语语料库基本加工规范 .中文信息学报, 2002, 16(5):49-64 【 13】 Chen K H, Chen H H, Overview of CLIR task at the third NTCIR Workshop,NTCIR Workshop 3 Meeting, 2002:1-13

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。