ImageVerifierCode 换一换
格式:DOC , 页数:8 ,大小:110.50KB ,
资源ID:1733332      下载积分:10 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1733332.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于文本空间表示模型的文本相似度计算研究.doc)为本站会员(gs****r)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

基于文本空间表示模型的文本相似度计算研究.doc

1、1基于文本空间表示模型的文本相似度计算研究摘要在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果。 关键词文本相似度;文本空间表示模型;段落;算法 中图分类号TP391.1文献标识码A文章编号1008-0821(2013)02-0021-03 文本相似计算具有重要作用和广泛应用,它主要应用于基于著作权保护的文本相似检测、信息检索以及自动文本摘要等领域。在文本复制检测方面,相似文本的

2、检测可保护创作者的合法权益免受他人侵犯;在信息检索领域,相似文本的检测可以略去大量冗余信息;在自动文本摘要领域,主要为 web 页面自动生成摘要,便于 web 信息检索1-2。目前文本相似计算在信息检索以及自动文本摘要领域应用较为普及,在文本复制检测领域的主要实现方法是对整个文本进行词汇抽取,利用关键词顺序匹配的方法实现相似文本的检测3-4。 对于一个大型数据集,当给定任意一个待检测文本,相似文本计算算法应该能够以较短的计算时间完成相似性检测任务,即:发现与该文本在语言表达上有一定相似度的文本,如果系统中事先存在这样的文本2的话。基于算法执行时间和执行效率的考虑,本研究将文本分解为段落,进一步

3、将段落分解为语句,语句又分解为若干词语的集合,以此构成三维的文本空间表示模型。只要在语句和段落维度上发现被检测的两个文本存在相似处,则判定被检测对象存在相似之处。最后利用已有的测试集检测算法执行结果。 1 相似度判定的层次分析 从文本属性这个角度来看,文本相似检测可以从两个层面进行:内容相似和语言表达相似。对于任意一个文本而言,内容与语言表达并非相互独立的两个方面5。内容相似的文本,其语言表达形式并不一定就相似,例如以下两个例句:“大年三十晚上,街上冷冷清清,看不见一个人影” , “除夕夜晚,马路上空空荡荡,一片寂静的景象” ,二者要表达的内容是一样的,但表达所使用的语言词汇却又很大的不同;而

4、语言表达相似的文本包括词汇以及词汇间的相对次序相似,其内容在很大程度上则是相似的。现今搜索引擎采用同义词技术,如:“大年三十”和“除夕” 、 “夜晚”和“晚上”等,能将包含检索词的同义词或近义词的文本搜索出来,所以信息检索更多的是从内容相似这个角度进行相似文本计算;而基于著作权保护的文本相似检测则是从表达相似这个角度进行文本相似计算6。现今的著作权法只保护作者思想的外在表达形式,并不保护作品反映的思想或观点,因而本文将从表达相似这个角度探讨文本相似检测的思想和算法。 从文本结构这个角度来看,相似文本检测可以从多个层次进行:全文、段落、语句、词语。不同层次上的相似度检测可用于不同的研究领3域,如

5、:判定词语间的相似度计算可用于机器翻译领域7;判定词语与句子或段落之间,或者句子与段落之间的相似度计算可用于信息检索领域,例如:我们在检索信息时,通常输入的是若干个词语或者是一个句子,其将作为查询向量输入检索系统,并与文本库中的文本向量进行距离计算;段落与段落之间、全文与全文之间的相似度计算则主要应用于基于著作权保护的文本相似检测领域。上述 3 个检测层次的对象粒度依次递增,而处于较高粒度层次的相似度检测是建立在较低粒度层次相似度检测基础之上的。本研究对于文本相似的计算建立在段落与段落间的相似度计算基础之上。之所以选择段落为计算单位,除了上述因素外,还因为发生全文相似的概率相比较发生段落相似的

6、概率小得多,并且段落相似的计算结果完全能够包含全文相似的计算结果。而语句相似多数情况下则包含了正常的文献引用情况。 2013 年 2 月 11 第 33 卷第 2 期 11 现?代?情?报 11Journal of Modern Information11Feb.,201311Vol.33No.22013 年 2 月 11 第 33 卷第 2 期 11 基于文本空间表示模型的文本相似度计算研究11Feb.,201311Vol.33No.22 文本的结构化表示法 2.1 现有的文本表示法 在探讨文本相似性计算方法之前,首先回顾现有的文本表示方法。在信息检索领域内,文本的表示主要是采用向量空间模型

7、表示法8。其思想是:将某个搜索系统中索引项的集合 T 表示为:T=t0,t1,ti,tn-1,n 为索引项的数目;文本集合 D 表示为:D=d0,d1,dm-1,m 为文本的数目,di 是文本集合 D 中的一个文4本;则 di 可表示为:di=di,0,di,1,di,j,di,n-1,其中文本向量中每个分量 di,j 为索引项 tj 在文本 di 中的权重。di,j 的值由相应索引项 tj 是否在文本中出现以及它在文本中的词频 tf 与逆文本频率 idf 决定。该表示法运用于相似性计算中存在的问题是:一是文本向量的维度过高,且包含大量值为 0 的分量;二是文本向量中不包含与文本段落结构相关的

8、任何信息。基于上述问题,本研究提出三维的文本空间表示模型法。 2.2 文本的空间表示模型 通过分析文本的组成结构,我们可以知道文本的基本组成单位是段落,而段落的组成单位是句子,句子的组成单位则是词语,如图 1 所示。从图 2 中可以看出:一个文本可以表示为一个三维空间模型,三维空间中的每一个结点在文本中均有一个词语与之对应,结点在空间中的位置其实包含了相应词语在文本中的位置信息,即:该词语在文本中所处的段落、句子,以及在句子中的位置。每个段落可表示为一个二维向量平面 pi,i1,m;平面中的每一个列向量 si,i1,n,对应于该段中相应的一个句子;句子 si 中包含若干个词语 ti,i1,k。

9、由此可见,组成三维空间模型的 3 个分量分别是:段落(P) 、句子(S)和词语(T) 。 3 文本的相似度计算算法 3.1 算法描述 现有任意两个文本 d1、d2,其表示如下: 矩阵的每一个列向量就是段落 p1i 中的一个句子 si,si 中元素 t1i5是该句中的一个词语,同样段落 p2i 也可表示成上述形式,这里就不再列出。矩阵中元素 t1i 的取值方式与信息检索系统中有所不同,信息检索系统为每个索引词取一个与词频相关的量化值,这里将 t1i 的值设定如下:该词语在索引系统中的索引号,能够唯一标识该词语的一个编号或标识符。 令(3)式中任意一项 p1ip2i=(p1i)Tp2i,则由式(4

10、) 、 (5)可以得到表达式(7): 当 s11s21 的值为 0,则认定 s11 与 s21 相似,当值为 1,则认定 s11与 s21 不相似。设 为语句相似度阈值,(0,1) , 的取值因判定相似的严格程度而定,这里不再赘述。回到表达式(7)中来,矩阵中元素的值或者为 0,或者为 1,计算出其中值为 0 的元素所占比例 r,则r 是衡量两个段落相似程度的关键因素。当 r,认定两个段落相似, 是段落相似度阈值,其值的选取同表达式(12)中的 一样,视应用环境和要求而定。有关相似度阈值设定的方法请参考文献9-10。 表达式(3)中,文本 d1、d2 的相似矩阵 d12 中任一元素的计算值如果

11、能认定相应的两个段落相似,则认为 d1、d2 之间存在文本相似之处。3.2 实验计算结果 实验步骤如下:在某个期刊检索系统中,用“文本”和“相似”这两个检索词检索出同一领域的若干篇论文,从中挑出部分文本构成实验测试文本集 T。T 中包含 50 个文本,另外选择其中两个文本作为被检测对象 d1,d2,分别进行两次实验。实验目的是:在 T 中分别查找与6d1,d2 至少存在段落相似的文本。当然以先验信息可知:T 中同时存在与 d1,d2 相似以及不相似的文本。 设 =0.7,=0.7,采用上述算法将 T 中每一个文本逐个与 d1,d2进行相似度计算。首先选用文本处理工具对测试集中每个文本以及d1,

12、d2 进行词汇抽取,对每个词语建立数字化的索引项,并以段落为单位建立索引矩阵,如表达式(6) ,这样每个文本将包含多个段落索引矩阵。运用 Matlab 将文本 d1 逐一与 T 中文本 di 进行相似度计算,可得出T 中与文本 d1 的段落 pi 相似的段落数目。同样的计算过程在 d2 与测试集文本之间再次执行。计算结果如表 1 所示,由于篇幅所限,这里只列出文本 d1,d2 中的部分段落,并且相似段落所在文本这里不再列出。从实验中可知: 和 的取值至关重要,适当减小二者的值,表 1 中相似段落数目可能会增加;如果适当增大其值,表中相似段落数目则会相应减少。表 1T 中与文本 d1,d2 的段

13、落 pi 相似的段落数目 本文介绍了一种以段落、语句、词语为层次结构的文本表示法文本空间表示模型,并在此基础上研究以文本段落为单位的文本相似计算算法。文中涉及到文本分词及建立索引等技术均采用现有成熟技术,故而不再详述。将文本分解为文本空间表示模型中的段落、语句、词语的思路较为直观,易于计算实现,为相似文本检测系统的设计和实现提供了方法支持。文章不足之处在于实验文本集的覆盖面较小,被测试文本的选择随机性不强,这些不足之处有待于进一步改进;另外相似度阈值的选择对计算结果的影响程度的研究也没有涉及,这些都将是下一步研究工作的重点所在。 7参考文献 1Yatsko V.A.,Vishnyakov T.

14、N.A method for evaluating modern systems of automatic text summarizationJ.In:Automatic Documentation and Mathematical Linguistics,2007,41(3):93-103. 2金博,史彦军,滕弘飞.基于语义理解的文本相似度算法J.大连理工大学学报,2005,45(2):291-296. 3Mihalcea R.,Tarau P.TextRank:Bringing Order into TextsM.Department of Computer Science Univer

15、sity of North Texas,2004. 4Ozlem Uzuner,Randall Davis,Boris Katz.Using empirical methods for evaluation expression and content similarityJ.Proceeding of the 37th Hawaii International Conference on System Sciences,2004. 5Sun Z,Errami M,Long T,Renard C,Choradia N,et al.Systematic Characterizations of

16、Text Similarity in Full Text Biomedical PublicationsJ.(2010)PLoS ONE 5(9):e12704. 6Ladekar A.,Mujumdar A.et al.Automatic text summarization using:fuzzy GA-GPJ.International Journal of Engineering Research and Application,2012,2(2):1551-1555. 7Islam A.,Inkpen D.Semantic text similarity using corpus-b

17、ased word similarity and string similarityJ.ACM 8Trans.Knowl.Discov.Data.July 2008. 8Salton G.,Wong A.,Yang C.S.A vector space model for automatic indexingJ.Communication of the ACM,1975,18(11):613-620. 9刁力力,王丽坤,陆玉昌,等.计算文本相似度阈值的方法J.清华大学学报:自然科学版,2003,43(1):108-111. 10宋韶旭,李春平.基于非对称相似度的文本聚类方法J.清华大学学报:自然科学版,2006, (46)7:1325-1328. (本文责任编辑:王涓)

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。