1、毕业论文(设计)外文翻译NODESIMILARITYINTHECITATIONGRAPHABSTRACTPUBLISHEDSCIENTIFICARTICLESARELINKEDTOGETHERINTOAGRAPH,THECITATIONGRAPH,THROUGHTHEIRCITATIONSTHISPAPEREXPLORESTHENOTIONOFSIMILARITYBASEDONCONNECTIVITYALONE,ANDPROPOSESSEVERALALGORITHMSTOQUANTIFYITOURMETRICSTAKEADVANTAGEOFTHELOCALNEIGHBORHOODSOFTHEN
2、ODESINTHECITATIONGRAPHTWOVARIANTSOFLINKBASEDSIMILARITYESTIMATIONBETWEENTWONODESAREDESCRIBED,ONEBASEDONTHESEPARATELOCALNEIGHBORHOODSOFTHENODES,ANDANOTHERBASEDONTHEJOINTLOCALNEIGHBORHOODEXPANDEDFROMBOTHNODESATTHESAMETIMETHEALGORITHMSAREIMPLEMENTEDANDEVALUATEDONASUBGRAPHOFTHECITATIONGRAPHOFCOMPUTERSCIE
3、NCEINARETRIEVALCONTEXTTHERESULTSARECOMPAREDWITHTEXTBASEDSIMILARITY,ANDDEMONSTRATETHELINKBASEDANDTEXTBASEDRETRIEVALKEYWORDSNETWORKEDINFORMATIONSPACESDOCUMENTSIMILARITYMETRICCITATIONGRAPHDIGITALLIBRARIES1INTRODUCTIONTHECONCEPTOFINFORMATIONSPACEHASBEENPROPOSEDFORCOLLECTIONSOFINFORMATIONTHATAREORGANIZED
4、SOTHATTHEUSERCANBEAWAREOFTHEIRSTRUCTUREANDCONTENT,ANDUSESUCHAWARENESSTONAVIGATETHROUGHTHEMSOMEINFORMATIONSPACESAREDESIGNED,HOWEVER,OTHERSARESELFORGANIZINGANDSELFEVOLVINGBYLARGENUMBERSOFPEOPLEOVERAPERIODOFTIMESEVERALIMPORTANTINFORMATIONSPACES,SUCHASTHEWORLDWIDEWEB,ARENETWORKSCONSISTINGOFINFORMATIONEN
5、TITIESANDLINKSBETWEENTHEMTHATIMPLYARELATIONBETWEENTHEENTITIESWECALLTHELATTER“NETWORKEDINFORMATIONSPACES,”TOEMPHASIZETHEIRCONNECTIVITYASPECTANDTHEGROWINGREALIZATIONINTHERESEARCHCOMMUNITYTHATCONNECTIVITYISASIMPORTANTASCONTENTINORGANIZINGANDRETRIEVINGINFORMATIONFROMSUCHINFORMATIONSPACESINORDERTONAVIGAT
6、EANDMINETHECONTENTSOFANETWORKEDINFORMATIONSPACE,ITISOFCRUCIALIMPORTANCETOBEABLETOJUDGESIMILARITYBETWEENINFORMATIONENTITIESTRADITIONALLY,SIMILARITYBETWEENINFORMATIONENTITIESISCOMPUTEDBASEDONTHEIRCONTENTHOWEVER,INANETWORKEDINFORMATIONSPACE,ALOTOFINFORMATIONABOUTSIMILARITYISENCODEDINTHELINKSTRUCTUREOFT
7、HEGRAPHTHISLINKBASEDSIMILARITYCANCOMPLEMENTTHECLASSICCONTENTBASEDSIMILARITYMEASURESTOPRODUCEAHIGHLYACCURATESIMILARITYMETRICSIMILARITYISAKEYCONCEPT,NOTONLYINCLASSICALINFORMATIONRETRIEVALFORWHICHDIRECTMETHODSBASEDONINDEXINGAREMOREEFFICIENTBUTALSOFORHIGHERLEVELTASKSTHATINVOLVETHEORGANIZATIONOFLARGEHYPE
8、RLINKEDDOCUMENTCORPORASUCHTASKSINCLUDECLUSTERING,AUTOMATICTERMEXTRACTIONFROMCLUSTERSTOBUILDTHESAURI,ANDVISUALIZATIONOFDOCUMENTCORPORATHEBODYOFSCIENTIFICLITERATURE,WHEREINFORMATIONENTITIESAREARTICLESANDLINKSREPRESENTREFERENCESTOOTHERARTICLES,HASEXISTEDASANETWORKEDINFORMATIONSPACEINPAPERFORMFORALONGTI
9、ME,ANDISRAPIDLYBECOMINGAVAILABLEINELECTRONICFORMTHROUGHDIGITALLIBRARIESANDTHEWORLDWIDEWEBINTHISPAPER,WEEXPLOREVARIOUSSIMILARITYMETRICSFORTHEGRAPHOFTHESCIENTIFICLITERATURE,THECITATIONGRAPH,PURELYBASEDONLINKSTRUCTUREOURGOALHEREISTOINVESTIGATEHOWMUCHSIMILARITYINFORMATIONCANBEEXTRACTEDJUSTFROMTHELINKSTR
10、UCTUREOURMETHODSAREEASYTOCOMPUTEMOREOVER,THEYAREBASEDONLYONALOCALNEIGHBORHOODOFTHEINFORMATIONENTITIESINTHENETWORKEDINFORMATIONSPACETHEREFORE,THEYAREAPPLICABLEEVENWHENTHENETWORKEDINFORMATIONSPACEISTOOLARGETOFITONADESKTOPMACHINE,PROVIDEDAMECHANISMISAVAILABLEFORLOCALNAVIGATIONFROMONEINFORMATIONENTITYTO
11、ITSNEIGHBORSFORACCESSTOTHECOMPUTERSCIENCELITERATUREWEUSETHEELECTRONICDATABASECITESEERRESEARCHINDEXUSEOFCITATIONINFORMATIONTOCOMPUTERELATEDNESSBETWEENSCIENTIFICPAPERSHASBEENSTUDIEDPREVIOUSLYINCONTEXTSMORELIMITEDTHANOURS14SINCECITATIONSOFOTHERPAPERSAREHANDPICKEDBYTHEAUTHORSASBEINGRELATEDTOTHEIRRESEARC
12、H,THEREFERENCELISTOFAPAPERCONTAINSINFORMATIONWHICHCANBEEXPLOITEDTOJUDGERELATEDNESSTHESIMPLESTRELATION,ADIRECTREFERENCEORCITATION,ISLIKELYTOOCCURAMONGRELATEDPAPERSWHICHAREPUBLISHEDAPARTINTIMEITDOESNOTOCCURVERYFREQUENTLYAMONGPAPERSPUBLISHEDINTHESAMEYEARORVERYCLOSEINTIMETWODIFFERENTCITATIONRELATIONSBET
13、WEENPAPERSHAVEBEENSPECIFICALLYIDENTIFIEDANDUSEDTOCALCULATESIMILARITY,NAMELYCOCITATIONTWOPAPERSREFERENCEDBYTHESAMEPAPERANDBIBLIOGRAPHICCOUPLINGTWOPAPERSCITINGTHESAMEPAPERTWOPAPERSARERELATEDBYCOCITATIONIFTHEYARECITEDTOGETHERBYTHESAMEPAPERSMALLHASSTUDIEDTHECOCITATIONPATTERNAMONGRESEARCHPAPERSANDHIGHLIG
14、HTSITSIMPORTANCEINSIMILARITYCOMPUTATIONCOCITATIONLINKSAREOFTENPRESENTINTWORELATEDOLDERPAPERSTWOPAPERSAREBIBLIOGRAPHICALLYCOUPLED,IFTHEYREFERENCETHESAMEPAPERIFTWORECENTPAPERSAREPUBLISHEDINTHESAMEORSIMILARRESEARCHAREA,ABIBLIOGRAPHICCOUPLINGPATTERNISVERYLIKELYTOBEFOUNDINTHEIRREFERENCELISTSBIBLIOGRAPHIC
15、COUPLINGANDCOCITATIONHAVEBEENEMPLOYEDTOCOMPUTESIMILARITYBETWEENRESEARCHPAPERSBUTEACHOFTHEMISONLYSUITABLEFORCOMPUTINGSIMILARITYINSPECIFICCASESFORINSTANCE,RESEARCHERSHAVEUSEDCOCITATIONFREQUENCYTOCOMPUTERELATEDNESSBETWEENTWOPAPERS,BUTTHEPAPERSTOBEJUDGEDHAVETOBEWELLCITEDBYOTHERAUTHORSFORTHEALGORITHMTOWO
16、RKPROPERLYAPPARENTLYCOCITATIONISNOTEFFICIENTINJUDGINGSIMILARITYAMONGRECENTPAPERSWHICHHAVENOTYETHADTHECHANCETOBECITEDBYMANYOTHERAUTHORSINTERMSOFTHEDIRECTLINKPATTERN,IFTHETWOPAPERSAREPUBLISHEDALMOSTATTHESAMETIME,ADIRECTCITATIONLINKISNOTLIKELYTOBEFOUNDBETWEENTHEM,EVENIFTHEIRCONTENTISRELATEDSIMILARLY,PA
17、PERSWHICHAPPEAREDINTHEEARLYSTAGESOFTHEDEVELOPMENTOFARESEARCHSPECIALTYARENOTGOODCANDIDATESFORBIBLIOGRAPHICCOUPLINGANALYSISINOURMETRICS,WEDONOTNEEDTOKNOWWHICHOFTHESECITATIONPATTERNSOURPAPERSFALLUNDERALLPATTERNSOFCITATIONRELATIONSAREACCOUNTEDFORBYUSINGTHECITATIONGRAPHGILESETAL19PROPOSEDASIMILARITYMEASU
18、REBASEDONCOMMONCITATIONSTOJUDGETHERELATEDNESSBETWEENPAPERSTHEMETRIC,CALLED“COMMONCITATIONINVERSEDOCUMENTFREQUENCY”CCIDF,ISCONCEPTUALLYSIMILARTOTHETEXTBASEDSIMILARITYMETRIC“TERMFREQUENCYINVERSEDOCUMENTFREQUENCY”TFIDFTHECCIDFMETRICASSIGNSAWEIGHTTOEACHPAPER,WHICHISEQUALTOTHEINVERSEOFCITATIONFREQUENCYIN
19、THEENTIREDATABASETOFINDDOCUMENTSRELATEDTOAGIVENPAPER,ALLTHEPAPERSWHICHHAVEATLEASTONEREFERENCEINCOMMONWITHTHATSPECIFICPAPERAREGENERATEDTHECCIDFMETRICISUSEDBYTHEAUTOMATICCITATIONINDEXINGSYSTEMOFCITESEEROURMOTIVATIONFORUSINGTHECITATIONGRAPHINSTEADOFCOMPARINGREFERENCELISTSASINCCIDFISTHATTHECITATIONGRAPH
20、CONTAINSINFORMATIONWHICHISMUCHRICHERTHANTHATEMBEDDEDINTHEREFERENCELISTS,ANDWHICHCANNOTBEOBTAINEDJUSTBYCOMPARINGREFERENCELISTSFROMDIFFERENTPAPERSTWOPAPERSMAYHAVENOCOCITATIONORBIBLIOGRAPHICCOUPLINGRELATIONSHIPATALL,BUTTHEYCOULDSTILLHAVEASTRONGRELATIONSHIPBETWEENTHEMIFTHEIRLOCALCITATIONGRAPHSINTERSECTS
21、UBSTANTIALLYFOREXAMPLE,INFIG1PAPERAREFERENCESPAPERC,PAPERBREFERENCESPAPERD,BUTAANDBDONOTREFERENCEEACHOTHEROBVIOUSLY,PAPERAANDPAPERBARENOTRELATEDTOEACHOTHERINTERMSOFCCIDF,COCITATIONORBIBLIOGRAPHICCOUPLINGIE,THROUGHTHEIRDIRECTREFERENCESBUT,IFWEEXPANDTHECITATIONGRAPHALITTLEFURTHER,WEMAYNDOUTTHATPAPERSC
22、ANDDARESTRONGLYCONNECTEDBYBIBLIOGRAPHICCOUPLINGLINKS,ANDWECOULDINFERTHERELATIONSHIPBETWEENPAPERSAANDBFROMPAPERSCANDDOURMETHODGENERALIZESTHISNOTIONBYUSINGBOTHCITATIONSANDREFERENCESINTHENEIGHBORHOODOFTHETWOPAPERSDEANANDHENZINGER9PRESENTALGORITHMSFORFINDINGPAGESINTHEWORLDWIDEWEBTHATARERELATEDTOAGIVENPA
23、GETHEIR“COMPANIONALGORITHM”ISSIMILARTOOURALGORITHMSINTHATITBUILDSANEIGHBORHOODGRAPHOFTHEGIVENPAGE,ITCALCULATESHUBANDAUTHORITYVALUESOFTHENODESINTHISGRAPHANDRETURNSTHETOPRANKEDAUTHORITYPAPERSASTHEMOSTSIMILARPAPERSTOTHEGIVENPAGEHOWEVER,THEIRALGORITHMDOESNOT,ANDCANNOTBETRIVIALLYADAPTEDTOCOMPUTEASIMILARI
24、TYMEASUREBETWEENTWOGIVENNODESTHEEVALUATIONMETRICUSEDISAPRECISIONMETRICBASEDONUSERSTUDIESSIMILARINNATURETOOURSFIG1RELATIONBETWEENPAPERSINFERREDFROMCITATIONGRAPHINOURWORK,WEPROPOSETWODIFFERENTGRAPHBASEDMETRICSTHEMAXIMUMFLOWMETRICANDTHEAUTHORITYVECTORMETRICINTHEMAXIMUMFLOWMETRIC,ONEJOINTLOCALCITATIONGR
25、APHISGENERATEDFROMAPAIROFPAPERSTOBECOMPAREDBYFOLLOWINGINCOMINGANDOUTGOINGLINKSFROMBOTHPAPERSONEPAPERISTREATEDASASOURCENODEANDTHEOTHERASASINKNODEFLOWCAPACITIESAREASSIGNEDTOTHEEDGESTHEN,THEVALUEOFTHEMAXIMUMFLOWWHICHCOULDBEPUSHEDTHROUGHFROMSOURCENODETOSINKNODEISCOMPUTED,ANDUSEDTOREPRESENTTHESIMILARITYB
26、ETWEENTHETWOPAPERSINTHEAUTHORITYBASEDMETRIC,ALOCALCITATIONGRAPHISGROWNSEPARATELYFOREACHPAPERTOBECOMPARED,BYFOLLOWINGINCOMINGANDOUTGOINGLINKSSEPARATELYFOREACHPAPERTHEN,AUTHORITYWEIGHTS17ARECOMPUTEDFORALLNODESINEACHOFTHELOCALCITATIONGRAPHSEACHPAPERISTHENREPRESENTEDBYAVECTOR,WHOSEELEMENTSARETHEAUTHORIT
27、YWEIGHTSOFTHENODESINITSLOCALCITATIONGRAPHFINALLY,SIMILARITYISCOMPUTEDASTHEVECTORDISTANCEBETWEENTHESEVECTORSTHEMOTIVATIONFORUSINGACITATIONGRAPHFORTHEEVALUATIONOFOURGRAPHBASEDSIMILARITYMEASURESISTWOFOLDFIRSTLY,RECENTLITERATUREINBIBLIOMETRICS14,15,24,25SUGGESTSCONSIDERABLEINTERESTINTHECOMPARISONANDCLAS
28、SIFICATIONOFDOCUMENTSBASEDONTHEIRCITATIONENVIRONMENTSECONDLY,THENETWORKEDINFORMATIONSPACEFORMEDBYSCIENTIFICPAPERSANDTHEIRREFERENCESCANBEEXPECTEDTOHAVEACERTAINHOMOGENEITYTHEREFORE,SUCHASPACEISMORESUITEDFORTHEINITIALTESTINGOFNEWIDEASTHANALESSHOMOGENEOUSSPACESUCHASTHEWORLDWIDEWEBTOEMPHASIZETHELINKEDSTR
29、UCTUREOFOURINFORMATIONSPACE,WECHOSEANONLINECITATIONINDEXFOROURSTUDIES,NAMELYCITESEER,ANONLINEDATABASEOFSCIENTIFICPAPERSINCOMPUTERSCIENCEOURACCESSTOTHISDATABASEWASONLYVIATHEINTERNETWEBUILTAWEBROBOTTOAUTOMATETHISACCESSAPPLICATIONOFOURMEASURESONTHEWORLDWIDEWEB,WHICHISALOTLESSHOMOGENEOUSTHANTHECITATIONG
30、RAPH,ISAFUTURERESEARCHPROJECTTHESIMILARITIESANDDIFFERENCESBETWEENTHECITATIONGRAPHANDTHEWEBAREEXPLOREDIN3THEADVANTAGESOFUSINGTHEPARTICULARCITATIONGRAPHARETHEPAPERSINCLUDEDAREFAIRLYHOMOGENEOUSINLENGTHANDSTRUCTURE,ANDTHEREFERENCESANDCITATIONSHAVEACLOSERELATIONTOTHESEMANTICCONTENTOFTHEPAPERSTHEPAPERSARE
31、INANAREAFAMILIARTOTHEAUTHORS,SOTHEPOSSIBILITYEXISTSTOCOMPAREEXPERIMENTALRESULTSWITHOUROWNJUDGMENTSACCESSWASFAIRLYSTRAIGHTFORWARD,ANDFULLPAPERSCOULDBERETRIEVEDEASILYTHEDISADVANTAGESAREOURDATACONSISTSOFABODYOFSCIENTIFICLITERATURE,SOSIMILARITYOFPAPERSCANONLYBEJUDGEDBYEXPERTS,ANDINVOLVESCONSIDERABLETIME
32、ANDEFFORTCITESEERCONTAINSACERTAINAMOUNTOF“CLUTTER”SUCHASDUPLICATEPAPERSCITESEERITSELF,ASWELLASANYSUBSETTHATWEUSEDFOROUREXPERIMENTS,ISNOTCOMPLETEINOTHERWORDS,THEFULLTEXTOFTHEREFERENCESOFAPAPERINTHEDATABASEISNOTNECESSARILYAVAILABLEINTHEDATABASETHISMAYWELLBEAFEATUREOFANYCITATIONINDEX,THOUGHACURSORYCOMP
33、ARISONWITHTHESCIENCECITATIONINDEX,FOREXAMPLE,SHOWEDTHATTHISWELLESTABLISHEDDATABASESHOWEDABOUTTHESAMEDEGREEOF“INCOMPLETENESS”ASOUROWNCOLLECTIONINSECTS2AND3WEDESCRIBEOURMETRICSANDTHEMETHODSTOCOMPUTETHEMINSECT4WEEVALUATETHEMETRICSANDTHEIMPACTOFTHEIRKEYPARAMETERSETTINGSWEALSODESCRIBEHOWTHELOCALCITATIONG
34、RAPHS,WHICHAREREQUIREDFORTHESIMILARITYMETRICS,AREBEINGBUILTINSECT5WECOMPARETHEPERFORMANCEOFTHELINKBASEDMETRICSWITHTEXTBASEDSIMILARITYMETRICSFINALLYWEDISCUSSTHERESULTSANDPROPOSEFUTURERESEARCHDIRECTIONS2AUTHORITYVECTORMETRICSINTHISSECTION,WEDESCRIBETHESIMILARITYMETRICSBASEDONAVECTORREPRESENTATIONOFTHE
35、NEIGHBORHOODSOFTHETWOPAPERSBEINGCOMPAREDGIVENTWORESEARCHPAPERSAANDB,WECONSTRUCTTWOSEPARATELOCALCITATIONGRAPHS,GRAPHAANDGRAPHB,FOREACHOFTHEMTHEIDEAISTOCOMPUTETHESIMILARITYOFTHEGIVENPAPERSBYCOMPARINGTHESIMILARITYOFTHEIRCITATIONENVIRONMENTSITISNOTATRIVIALPROBLEMTOCOMPAREGRAPHSRATHERTHANCOMPARINGLOCALCI
36、TATIONGRAPHSDIRECTLY,WEWISHTOUSETHEMOSTIMPORTANTOR“AUTHORITATIVE”PAPERSTOREPRESENTASPECIFICCITATIONENVIRONMENTTHESIMILARITYBETWEENCITATIONENVIRONMENTSWILLTHENBEBASEDLARGELYONTHESEAUTHORITYPAPERS译文引用图中的节点相似性摘要出版的科技论文通过他们之间的引用关系链接成了一个图,引用图。本文探索了基于连通性的相似性概念,并且提出了几种量化的算法。我们的度量使用的是引用图中节点的本地邻居。文中描述了基于两结点间
37、链接相似性的两个变量,其中一个是基于各自节点的本地邻居,另一个是基于同时从两个节点扩展的联合本地邻居。算法在检索领域中计算机科学的引用子图上进行了实现和评估。其结果与基于文本的相似性进行了比较,显示了基于链接和基于文本的检索的互补性。关键字网络信息空间;文献相似性度量;引用图;数字图书馆1介绍信息空间的概念是为了那些被组织起来的信息集合提出的,这样用户可以了解他们的结构和内容,并且使用这种认识来进行导航。一些信息空间是设计出来的,然而,其他的信息空间则是在一段时间内通过多人参与而自我组织和自我发展的。诸如万维网类的几个重要的信息空间是一种由信息实体及暗示了实体之间联系的链接构成的网络。我们称后
38、者为“网络信息空间”,以强调他们的连通性,以及研究界越来越意识到连通性和从网络信息空间上组织和检索信息是同样重要的。为了导航和挖掘网络信息空间中的内容,能否判断信息实体之间相似性变得至关重要。传统上,信息实体之间的相似性是根据他们的内容计算的。但是,在网络信息空间,许多关于相似性的信息隐于图中的链接结构中。基于链接的相似性可以补充经典的基于内容相似性的度量来产生高精度的相似性度量。相似性是一个关键概念,不仅在传统的信息检索中(其中基于索引的直接方法更为有效),而且也可以适用于涉及超链接文献的大型语料库组织的高水平的任务。这些任务包括聚类,自动提取聚类术语以建立叙词表及文档语料库的可视化。科学文
39、献作为以纸质形式表现的网络信息空间已经有很长时间了,其中的信息实体是论文,链接则表示对引其他论文的引用,目前正迅速发展其电子形式并通过数字图书馆和万维网获得。在本文中,我们探索了仅基于链接结构的科学文献图、引用图的不同的相似性度量。我们的目标是调查可以从链接结构中提取多少相似性信息。我们的方法很容易计算。再者,他们是仅仅以网络信息空间的信息实体的本地邻居为基础的,只要提供了从一个信息实体到他的邻居的本地导航机制,即使当网络信息空间由于太大而不适用于台式机时他们也是可用的。为了访问计算机科学文献,我们使用了电子数据库CITESEERRESEARCHINDEX。在资料比我们的更有限的情况下,先前已
40、经对使用引文信息来计算科学论文之间的关联性进行了研究。因为论文的引文是作为与作者们的研究相关的文献作者手动选择得到的,所以一个论文的参考文献单包含了可以用来判断相关性的信息。最简单的关系,一篇直接参考文献或引文很可能在相隔一段时间的相关论文上出现,但它不会再同一年出版或出版时间非常接近的论文上出现太频繁。两篇不同引文之间的关系现在已经被具体的定义了,叫做共同引用(两篇论文被同一篇论文引用)和书目耦合(两篇论文引用了同一论文),并且他们都用来计算相似性。两篇论文如果被同一篇论文引用的话,他们以共同引用相关联。对研究论文的共同引用我们研究了一小部分,并且强调了他在相似性计算上的重要性。共同引用链接
41、时常在两篇关联性长久的论文中出现。两篇文章如果引用了同一篇论文,那么这两篇文章耦合起来了。如果两个近来的的论文发表在相同或相近的研究领域,书目耦合模式也很可能在参考文献单上找到。书目耦合和共同引用已经采用来研究两篇论文相似性计算,但他们中任何一个的相似性只适合在特定情况计算。例如,研究人员利已经用共同引用频率计算两篇论文之间的关联程度,这些将被判断的论文一定被其他作者很好的引用,以便算法能够工作正常。显然共同引用在近来的还没有机会被许多其他作者引用在论文上(判断相似性不够有效)。就直接链接模式而言,如果两篇论文差不多在同一时间发表,直接引文链接不太可能在他们之间找到,即使他们的内容是相关的。同
42、样,出现在早期的发展阶段的专业研究论文不是很好的书目耦合分析的候选文。在我们的度量中,我们并不需要知道我们的论文属于其中哪些模式。所有的引文关系模式通过引用图给解释了。杰尔等人提出了一个相似性计量方法,它是基于判断论文间普通引文来判断论文之间关联性的,这个度量叫做“普通引用反文档频率(CCIDF)”在概念上与基于文本相似性度量体系“词频反文档频率”TFIDF类似。这个CCIDF度量给每篇论文都分配了一个权重,这个权重是与在整个数据库的逆引文频率相等的。为了找到与给定的论文相关的资料,至少有一篇参考文献的所有论文与那些特定论文一样将会生成。该CCIDF度量使用于CITESEER的引文自动索引系统
43、中。在CCIDF中,我们使用引图而非比较性参考目录的动机是,引文图中包含的信息比嵌套在参考目录中的信息丰富的多,而且可以得到在比较参考目录中没有的信息。两篇论文可能在共同引用和书目耦连上一点关系都没有,但是,他们之间可以仍就有一个很强烈的联系,如果他们的本引图实质性地相交。例如,在图1中,论文A引用了论文C,论文B引用了论文D,显然A和B相互之间没有关系。但是,如我我们把引用图扩展一点点我们可以找到论文C和论文D通过书目耦合链接,关联性很强。而且我们可以推断出引用C的A和引用B的D论文之间的关系。迪恩和HENZINGER展示了在万维网上寻找与特定网页相关联的网页的算法,他们的“伴侣算法”在构造
44、给定页面的邻居是与我们的算法相似的。他计算了本图节点的枢纽和权威值,并且返回到权威排名的顶部作为与给定页面最相似的论文。然而,他们的算法没有且无法适应琐碎的在两个节点之间计算相似性的值。在用户研究的基础上,这个使用着的评价度量是一个本质上与我们的相似的精密度量体系。在我们的工作中,我们提出了从引图中推断两个不同的基于图的度量指标最大流度量指标和权威向量度量指标。联合本地引用图通过伴随着两篇论文的收发链接来比较一对论文。一篇论文被当作源节点和另一篇当作接收节点,流量归属于边缘问题。然后,可以从源节点穿过接收节点计算最大流的值,并用这个值来表示两篇论文之间的相似性。在基论文A论文B论文C论文D于权
45、威性指标体系中,本地引图是各自增长着地,并且他们通过伴随着每篇文章各自的收发链接进行比较。这样权威权重就通过每个本地引用图中的所有节点计算出来了,每篇论文代表了一个向量,其中论文的元素是在本地引用图中的权威权重,最后,相似性通过向量和这些向量之间的距离计算出来。使用引用图来评价基于图的相似性的动机是双重的。首先,最近在文献统计学方面的文献表示。研究者们对根据引文环境来比较和分类文献方面已经有了相当大的兴趣。其次,通过科技论文和他们的引文形成的网络信息空间可以预期到有一定的同质性。因此,这样一个空间更适合于新思路的初始测试而非如万维网上的一个狭小齐性空间。为了强调我们信息空间的链接结构,我们选择
46、一个网络引文索引叫做CITESEER,一个在计算机科学上科技论文网络数据库来研究。我们只能通过因特网访问这个数据库,我们建立了一个网络机器人来自动化这一访问。运用我们的措施到比引用图同质性少得多的万维网是一个未来研究项目。在引图和网络中的相似性与不同之处在这里探索的是使用具体引图的有点是论文内在的长度和结构上相当同质,并且参考文献和引文在论文的语义内容上也有密切的联系。在一个领域的论文是作者熟悉的,因此,存在实验结果与我们自己的判断相比较的可能性。访问简单,全文检索方便。缺点是我们的数据包含了科技论文这个团体,因此论文相似性仅可以被内行人员所判断,并且需要相当大的时间和经历。我们使用到研究实验
47、中的CITESEER本身和他的任何一个子集都是不完整的。也就是说,在数据库中的任一篇引文全文不一定在数据库中得到。例如,一个粗略的科学引文索引的比较,显示那些久负盛名的数据库与我们的收集相比都有相同程度的不完善。在2和3部分,我们描述了我们的度量计算方法,在4部分,我们评价了这个指标体系和关键参数设置的影响,我们同样描述了需要相似性度量的本地引用图是怎样形成的。第5部分,我们比较了基于链接的和基于全文的相似性度量体系的表现情况。最后,我们讨论了结果并指出了未来研究的方向。2权威向量度量体系在这个部分,我们根据两篇比较的论文的邻居的矢量表示来描述相似性度量。给定了两篇研究论文论文A和论文B,我们构造了各自本地引用图,图A和图B,思路是,通过比较引文环境相似性来计算给定论文之间的相似性。比较图表不是没有意义的,与直接比较本地引用图相比,我们更愿意使用最重要的或权威的论文来表示一个具体的引文环境相似性,在引文环境上将会更大地依据这些权威论文。
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。