基于文本空间表示模型的文本相似度计算研究.doc

上传人:gs****r 文档编号:1733332 上传时间:2019-03-13 格式:DOC 页数:8 大小:110.50KB
下载 相关 举报
基于文本空间表示模型的文本相似度计算研究.doc_第1页
第1页 / 共8页
基于文本空间表示模型的文本相似度计算研究.doc_第2页
第2页 / 共8页
基于文本空间表示模型的文本相似度计算研究.doc_第3页
第3页 / 共8页
基于文本空间表示模型的文本相似度计算研究.doc_第4页
第4页 / 共8页
基于文本空间表示模型的文本相似度计算研究.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、1基于文本空间表示模型的文本相似度计算研究摘要在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果。 关键词文本相似度;文本空间表示模型;段落;算法 中图分类号TP391.1文献标识码A文章编号1008-0821(2013)02-0021-03 文本相似计算具有重要作用和广泛应用,它主要应用于基于著作权保护的文本相似检测、信息检索以及自动文本摘要等领域。在文本复制检测方面,相似文本的

2、检测可保护创作者的合法权益免受他人侵犯;在信息检索领域,相似文本的检测可以略去大量冗余信息;在自动文本摘要领域,主要为 web 页面自动生成摘要,便于 web 信息检索1-2。目前文本相似计算在信息检索以及自动文本摘要领域应用较为普及,在文本复制检测领域的主要实现方法是对整个文本进行词汇抽取,利用关键词顺序匹配的方法实现相似文本的检测3-4。 对于一个大型数据集,当给定任意一个待检测文本,相似文本计算算法应该能够以较短的计算时间完成相似性检测任务,即:发现与该文本在语言表达上有一定相似度的文本,如果系统中事先存在这样的文本2的话。基于算法执行时间和执行效率的考虑,本研究将文本分解为段落,进一步

3、将段落分解为语句,语句又分解为若干词语的集合,以此构成三维的文本空间表示模型。只要在语句和段落维度上发现被检测的两个文本存在相似处,则判定被检测对象存在相似之处。最后利用已有的测试集检测算法执行结果。 1 相似度判定的层次分析 从文本属性这个角度来看,文本相似检测可以从两个层面进行:内容相似和语言表达相似。对于任意一个文本而言,内容与语言表达并非相互独立的两个方面5。内容相似的文本,其语言表达形式并不一定就相似,例如以下两个例句:“大年三十晚上,街上冷冷清清,看不见一个人影” , “除夕夜晚,马路上空空荡荡,一片寂静的景象” ,二者要表达的内容是一样的,但表达所使用的语言词汇却又很大的不同;而

4、语言表达相似的文本包括词汇以及词汇间的相对次序相似,其内容在很大程度上则是相似的。现今搜索引擎采用同义词技术,如:“大年三十”和“除夕” 、 “夜晚”和“晚上”等,能将包含检索词的同义词或近义词的文本搜索出来,所以信息检索更多的是从内容相似这个角度进行相似文本计算;而基于著作权保护的文本相似检测则是从表达相似这个角度进行文本相似计算6。现今的著作权法只保护作者思想的外在表达形式,并不保护作品反映的思想或观点,因而本文将从表达相似这个角度探讨文本相似检测的思想和算法。 从文本结构这个角度来看,相似文本检测可以从多个层次进行:全文、段落、语句、词语。不同层次上的相似度检测可用于不同的研究领3域,如

5、:判定词语间的相似度计算可用于机器翻译领域7;判定词语与句子或段落之间,或者句子与段落之间的相似度计算可用于信息检索领域,例如:我们在检索信息时,通常输入的是若干个词语或者是一个句子,其将作为查询向量输入检索系统,并与文本库中的文本向量进行距离计算;段落与段落之间、全文与全文之间的相似度计算则主要应用于基于著作权保护的文本相似检测领域。上述 3 个检测层次的对象粒度依次递增,而处于较高粒度层次的相似度检测是建立在较低粒度层次相似度检测基础之上的。本研究对于文本相似的计算建立在段落与段落间的相似度计算基础之上。之所以选择段落为计算单位,除了上述因素外,还因为发生全文相似的概率相比较发生段落相似的

6、概率小得多,并且段落相似的计算结果完全能够包含全文相似的计算结果。而语句相似多数情况下则包含了正常的文献引用情况。 2013 年 2 月 11 第 33 卷第 2 期 11 现?代?情?报 11Journal of Modern Information11Feb.,201311Vol.33No.22013 年 2 月 11 第 33 卷第 2 期 11 基于文本空间表示模型的文本相似度计算研究11Feb.,201311Vol.33No.22 文本的结构化表示法 2.1 现有的文本表示法 在探讨文本相似性计算方法之前,首先回顾现有的文本表示方法。在信息检索领域内,文本的表示主要是采用向量空间模型

7、表示法8。其思想是:将某个搜索系统中索引项的集合 T 表示为:T=t0,t1,ti,tn-1,n 为索引项的数目;文本集合 D 表示为:D=d0,d1,dm-1,m 为文本的数目,di 是文本集合 D 中的一个文4本;则 di 可表示为:di=di,0,di,1,di,j,di,n-1,其中文本向量中每个分量 di,j 为索引项 tj 在文本 di 中的权重。di,j 的值由相应索引项 tj 是否在文本中出现以及它在文本中的词频 tf 与逆文本频率 idf 决定。该表示法运用于相似性计算中存在的问题是:一是文本向量的维度过高,且包含大量值为 0 的分量;二是文本向量中不包含与文本段落结构相关的

8、任何信息。基于上述问题,本研究提出三维的文本空间表示模型法。 2.2 文本的空间表示模型 通过分析文本的组成结构,我们可以知道文本的基本组成单位是段落,而段落的组成单位是句子,句子的组成单位则是词语,如图 1 所示。从图 2 中可以看出:一个文本可以表示为一个三维空间模型,三维空间中的每一个结点在文本中均有一个词语与之对应,结点在空间中的位置其实包含了相应词语在文本中的位置信息,即:该词语在文本中所处的段落、句子,以及在句子中的位置。每个段落可表示为一个二维向量平面 pi,i1,m;平面中的每一个列向量 si,i1,n,对应于该段中相应的一个句子;句子 si 中包含若干个词语 ti,i1,k。

9、由此可见,组成三维空间模型的 3 个分量分别是:段落(P) 、句子(S)和词语(T) 。 3 文本的相似度计算算法 3.1 算法描述 现有任意两个文本 d1、d2,其表示如下: 矩阵的每一个列向量就是段落 p1i 中的一个句子 si,si 中元素 t1i5是该句中的一个词语,同样段落 p2i 也可表示成上述形式,这里就不再列出。矩阵中元素 t1i 的取值方式与信息检索系统中有所不同,信息检索系统为每个索引词取一个与词频相关的量化值,这里将 t1i 的值设定如下:该词语在索引系统中的索引号,能够唯一标识该词语的一个编号或标识符。 令(3)式中任意一项 p1ip2i=(p1i)Tp2i,则由式(4

10、) 、 (5)可以得到表达式(7): 当 s11s21 的值为 0,则认定 s11 与 s21 相似,当值为 1,则认定 s11与 s21 不相似。设 为语句相似度阈值,(0,1) , 的取值因判定相似的严格程度而定,这里不再赘述。回到表达式(7)中来,矩阵中元素的值或者为 0,或者为 1,计算出其中值为 0 的元素所占比例 r,则r 是衡量两个段落相似程度的关键因素。当 r,认定两个段落相似, 是段落相似度阈值,其值的选取同表达式(12)中的 一样,视应用环境和要求而定。有关相似度阈值设定的方法请参考文献9-10。 表达式(3)中,文本 d1、d2 的相似矩阵 d12 中任一元素的计算值如果

11、能认定相应的两个段落相似,则认为 d1、d2 之间存在文本相似之处。3.2 实验计算结果 实验步骤如下:在某个期刊检索系统中,用“文本”和“相似”这两个检索词检索出同一领域的若干篇论文,从中挑出部分文本构成实验测试文本集 T。T 中包含 50 个文本,另外选择其中两个文本作为被检测对象 d1,d2,分别进行两次实验。实验目的是:在 T 中分别查找与6d1,d2 至少存在段落相似的文本。当然以先验信息可知:T 中同时存在与 d1,d2 相似以及不相似的文本。 设 =0.7,=0.7,采用上述算法将 T 中每一个文本逐个与 d1,d2进行相似度计算。首先选用文本处理工具对测试集中每个文本以及d1,

12、d2 进行词汇抽取,对每个词语建立数字化的索引项,并以段落为单位建立索引矩阵,如表达式(6) ,这样每个文本将包含多个段落索引矩阵。运用 Matlab 将文本 d1 逐一与 T 中文本 di 进行相似度计算,可得出T 中与文本 d1 的段落 pi 相似的段落数目。同样的计算过程在 d2 与测试集文本之间再次执行。计算结果如表 1 所示,由于篇幅所限,这里只列出文本 d1,d2 中的部分段落,并且相似段落所在文本这里不再列出。从实验中可知: 和 的取值至关重要,适当减小二者的值,表 1 中相似段落数目可能会增加;如果适当增大其值,表中相似段落数目则会相应减少。表 1T 中与文本 d1,d2 的段

13、落 pi 相似的段落数目 本文介绍了一种以段落、语句、词语为层次结构的文本表示法文本空间表示模型,并在此基础上研究以文本段落为单位的文本相似计算算法。文中涉及到文本分词及建立索引等技术均采用现有成熟技术,故而不再详述。将文本分解为文本空间表示模型中的段落、语句、词语的思路较为直观,易于计算实现,为相似文本检测系统的设计和实现提供了方法支持。文章不足之处在于实验文本集的覆盖面较小,被测试文本的选择随机性不强,这些不足之处有待于进一步改进;另外相似度阈值的选择对计算结果的影响程度的研究也没有涉及,这些都将是下一步研究工作的重点所在。 7参考文献 1Yatsko V.A.,Vishnyakov T.

14、N.A method for evaluating modern systems of automatic text summarizationJ.In:Automatic Documentation and Mathematical Linguistics,2007,41(3):93-103. 2金博,史彦军,滕弘飞.基于语义理解的文本相似度算法J.大连理工大学学报,2005,45(2):291-296. 3Mihalcea R.,Tarau P.TextRank:Bringing Order into TextsM.Department of Computer Science Univer

15、sity of North Texas,2004. 4Ozlem Uzuner,Randall Davis,Boris Katz.Using empirical methods for evaluation expression and content similarityJ.Proceeding of the 37th Hawaii International Conference on System Sciences,2004. 5Sun Z,Errami M,Long T,Renard C,Choradia N,et al.Systematic Characterizations of

16、Text Similarity in Full Text Biomedical PublicationsJ.(2010)PLoS ONE 5(9):e12704. 6Ladekar A.,Mujumdar A.et al.Automatic text summarization using:fuzzy GA-GPJ.International Journal of Engineering Research and Application,2012,2(2):1551-1555. 7Islam A.,Inkpen D.Semantic text similarity using corpus-b

17、ased word similarity and string similarityJ.ACM 8Trans.Knowl.Discov.Data.July 2008. 8Salton G.,Wong A.,Yang C.S.A vector space model for automatic indexingJ.Communication of the ACM,1975,18(11):613-620. 9刁力力,王丽坤,陆玉昌,等.计算文本相似度阈值的方法J.清华大学学报:自然科学版,2003,43(1):108-111. 10宋韶旭,李春平.基于非对称相似度的文本聚类方法J.清华大学学报:自然科学版,2006, (46)7:1325-1328. (本文责任编辑:王涓)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 学科论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。