计算机科学与技术毕业论文(设计):同类网站查询接口的集成系统设计与实现.doc

上传人:文****钱 文档编号:43786 上传时间:2018-05-10 格式:DOC 页数:24 大小:612.48KB
下载 相关 举报
计算机科学与技术毕业论文(设计):同类网站查询接口的集成系统设计与实现.doc_第1页
第1页 / 共24页
计算机科学与技术毕业论文(设计):同类网站查询接口的集成系统设计与实现.doc_第2页
第2页 / 共24页
计算机科学与技术毕业论文(设计):同类网站查询接口的集成系统设计与实现.doc_第3页
第3页 / 共24页
计算机科学与技术毕业论文(设计):同类网站查询接口的集成系统设计与实现.doc_第4页
第4页 / 共24页
计算机科学与技术毕业论文(设计):同类网站查询接口的集成系统设计与实现.doc_第5页
第5页 / 共24页
点击查看更多>>
资源描述

1、毕业论文(设计)论文题目同类网站查询接口的集成系统设计与实现学生姓名学号0808210132所在院系计算机与信息工程系专业名称计算机科学与技术届次2013届指导教师淮南师范学院本科毕业论文(设计)诚信承诺书1本人郑重承诺所呈交的毕业论文(设计),题目同类网站查询接口的集成系统设计与实现是本人在指导教师指导下独立完成的,没有弄虚作假,没有抄袭、剽窃别人的内容;2毕业论文(设计)所使用的相关资料、数据、观点等均真实可靠,文中所有引用的他人观点、材料、数据、图表均已注释说明来源;3毕业论文(设计)中无抄袭、剽窃或不正当引用他人学术观点、思想和学术成果,伪造、篡改数据的情况;4本人已被告知并清楚学院对

2、毕业论文(设计)中的抄袭、剽窃、弄虚作假等违反学术规范的行为将严肃处理,并可能导致毕业论文(设计)成绩不合格,无法正常毕业、取消学士学位资格或注销并追回已发放的毕业证书、学士学位证书等严重后果;5若在省教育厅、学院组织的毕业论文(设计)检查、评比中,被发现有抄袭、剽窃、弄虚作假等违反学术规范的行为,本人愿意接受学院按有关规定给予的处理,并承担相应责任。学生(签名)日期年月日目录同类网站查询接口的集成系统设计与实现1同类网站查询接口的集成系统设计与实现学生(指导老师)(淮南师范学院计算机与信息工程系)摘要随着INTERNET与网络技术的飞速发展,网上的信息以海量方式增长,然而我们却不能快速而准确

3、获取有效的信息。海量信息只能通过查询接口访问获得,为了能够同时访问同一领域多个WEB数据库,需要对多个WEB数据库的查询接口进行集成通过实验分析,基于查询条件的深网查询接口集成方法不仅简化了模式匹配的复杂过程,而且很大程度上提高了模式集成的精度因此,此集成方法是高效可行的研究深度网的最终目的是为获取隐藏于WEB应用之后的网络数据库中的数据,通过查询接口在线访问后台数据库,这改变对传统的基于搜索引擎的查询和获取信息的方式带来了巨大的挑战。传统的搜索引擎只能进行静态页面的搜索,现有的接口集成方法主要集成各个网站提供的高级搜索接口,这样建立的集成接口由于包含过多的属性,面在一些属性上可代用户选择的候

4、选值更是繁杂,不便用户使用,于是设计了基于查询条件的集成接口,避免了浏览复杂的查询接口。关键词查询接口;数据库;接口集成;搜索;属性抽取CONGENERWEBSITEQUERYINTERFACEINTEGRATIONSYSTEMDESIGNANDIMPLEMENTATIONSTUDENTWEIMINFACULTYADVISERCHENLEIDEPARTMENTOFCOMPUTERANDINFORMATIONENGINEERING,HUAINANNORMALUNIVERSITYABSTRACTWITHTHERAPIDDEVELOPMENTOFINTERNETANDNETWORKTECHNOLOG

5、Y,THEINFORMATIONONTHENETGROWTHINVASTAMOUNTSOFWAY,BUTWECANTGETEFFECTIVEINFORMATIONFORACCURATEANDFASTCANONLYBEACQUIREDTHROUGHQUERYINTERFACETOACCESSVASTAMOUNTSOFINFORMATION,INORDERTOBEABLETOACCESSTOTHESAMEFIELDATTHESAMETIMEMULTIPLEWEBDATABASE,THENEEDFORMULTIPLEWEBDATABASEQUERYINTERFACE淮南师范学院2013届本科毕业论文

6、2INTEGRATIONTHROUGHTHEEXPERIMENTALANALYSIS,BASEDONTHEQUERYCONDITIONSOFDEEPWEBQUERYINTERFACEINTEGRATIONMETHODNOTONLYSIMPLIFIESTHECOMPLEXPROCESSOFPATTERNMATCHING,ANDLARGELYENHANCESTHEPRECISIONOFMODELINTEGRATIONTHEREFORE,BASEDONTHEQUERYCONDITIONSOFDEEPWEBQUERYINTERFACEINTEGRATIONMETHODISEFFICIENTANDFEA

7、SIBLETHEULTIMATEGOALOFNETWORKRESEARCHDEPTHISFORHIDDENINTHEWEBAPPLICATIONAFTERTHENETWORKDATAINTHEDATABASE,THROUGHONLINEACCESSTOBACKGROUNDDATABASEQUERYINTERFACE,WHICHCHANGEDTHETRADITIONALWAYBASEDONSEARCHENGINEQUERYANDACCESSTOINFORMATIONBRINGSGREATCHALLENGETRADITIONALSEARCHENGINESCANONLYCARRYONTHESTATI

8、CPAGESEARCH,THEEXISTINGINTERFACEINTEGRATIONAPPROACHMAINLYINTEGRATEDEACHSITEOFFERSADVANCEDSEARCHINTERFACE,SOTHATESTABLISHTHEINTEGRATIONOFTHEINTERFACEDUETOCONTAINTOOMANYATTRIBUTES,FACEONSOMEOFTHEPROPERTIESFORTHEUSERSCHOICEOFCANDIDATEVALUESISMORECOMPLEX,INCONVENIENTTOUSERS,SOTHEINTEGRATIONINTERFACEDESI

9、GNBASEDONTHEQUERYCONDITIONS,AVOIDINGTHEBROWSECOMPLEXQUERYINTERFACEKEYWORDQUERYINTERFACEDATABASETHEINTERFACEINTEGRATIONSEARCHATTRIBUTESAMPLING同类网站查询接口的集成系统设计与实现3前言论文主要任务是针对当前同一领域的不同站点所提供的各个查询接口进行集成,为用户提供一个统一的查询接口,从而节省用户的查询时间。用户在统一的查询接口上输入查询条件,这个查询条件会被分解并传送到各个站点,并被提交,从而得到站点的部分查询结果,再将各站点得到的查询结果进行整合,最终为

10、用户返回一个完整的查询结果。使用本体ONTOLOGY定义为用户浏览和查询处理领域知识的“桥梁”作用,设置属性之间的映射关系不同的接口模式,准确地识别语义之间的关联不同的界面特性,模型融合,根据模式匹配的结果,合并网站数据库查询接口设置在相同的语义属性,并且尽量保持查询接口领域的结构特点和属性顺序,以取得集成查询界面。互联网包含了大量的可获取信息,它的内容存储在一个真正的在线数据库,但是这个信息获得得通过查询接口来访问。为了提供给用户属于网络特定的区域根据去问的途径需要对网络数据库查询接口集成。因此,同类查询接口集成可以看作是同领域各本地查询接口之上的全局视图。同类查询接口集成主要完成两个方面的

11、工作模式的集成与模式的匹配。从模式匹配来看,传统的模式匹配方法主要由对比匹配发现属性相关性和统一的全局模型。然而,由于WEB数据库的自治性导致查询接口形式和内容的多样性,和最终所有可能的属性组合的搜索空间很难,使模式匹配面临更多的挑战。使属性之间高精度匹配,查询接口模式匹配使用领域本体概念映射方法,遵循本体语义元信息,计算的模式统一,建立属性之间的映射关系不同的接口模式,实施不同的深层网络查询接口属性匹配。在模式融合方面,传统模式融合方法没用充分考虑属性的模式信息,只是针对属性标签,导致集成结果不够完善和精确,因此,查询接口模式融合通过定义模式融合规则对模式匹配结果进行处理,以最终获得源模式集

12、的全局查询接口。目前国内在利用计算机实现集成的网站查询接口集成系统设计和这一领域的研究还有很大可能的研究空间,所以选择了这个主题,力求在这个领域作出贡献。模式匹配方法模式匹配方法主要包括基于本体、基于统计模型和基于聚类。11模式匹配方法基于本体每个源接口形式化为XML架构,并产生相应的XML架构的基础,然后再定义一组规则,形成主体匹配的自定义域本体概念,产生集成接口。然而,由于这种方法的匹配淮南师范学院2013届本科毕业论文4精度依赖于所定义的匹配规则,需要大量的人工定义精确的规则。基于本体的关系数据库模式匹配的方法,先计算输入的单词相似的本体,然后使用聚类方法和定义的概念聚集近似映射功能映射

13、得到的最终结果。然而,在计算的输入字和本体相似时,考虑只有这两个关键词的相似性,没有得到充分利用本体语义级别的功能。基于本体的集成方法,通过建立综合查询接口领域本体,然后定义推理规则消除冲突,使每个查询的界面和集成的查询接口匹配。然而,这第一场比赛后可能使综合查询接口集成方法不能完全与本地查询接口匹配,导致在一个综合的结果是不可靠的,全面,准确。在模式融合方面,提出并实现查询接口集成的原型系统的首要条件是设计一种交互式聚类匹配算法,得到不同查询接口属性之间的对应关系,将获得匹配关系的属性聚集到同一类中,并根据聚类规则选出每一类中的特征属性。由于复杂的映射关系频繁出现,不能完全自动化实现集成的过

14、程,需要通过用户交互方式指导解决映射过程中不确定的问题,最后将每一类的特征属性作为统一查询接口的属性。但是,该方法忽略了查询接口中很多有用的信息,并且需要用户交互来解决问题。由此可见,虽然同类网站查询接口集成取得了一些研究成果,但是,仍然有很多关键问题有待进一步改善。在模式集成,综合查询界面,提出并实施了一个原型系统的首要条件是要设计一个互动的聚类匹配算法,以获得不同的查询接口属性之间的映射关系将被匹配到同一类物业聚集,根据规则选择每个集群在要素属性类。由于复杂的映射经常发生,不能完全实现自动化,从而实现集成的过程,需要通过用户交互指导解决问题的过程中的不确定性映射,最后是每类作为一个统一的查

15、询接口属性的特性。然而,该方法忽略了很多有用的信息的查询接口,需要用户交互来解决问题,并给用户带来不便,有一些关键问题有待进一步改进。12模式匹配方法基于统计模型基于统计模型分析统计模型属性名称同时出现的频率和模式,应用“正关联”和“负关联”双重算法同时处理简单的11匹配和复杂的MN匹配,正相关”往往对应元素之间的“群组关系”,而“负关联”通常对应于“同义关系”,然后把得到的相关知识应用于辅助匹配。使用关联搜索方法获得属性间的复杂匹配,该方法通过应用关联公式计算属性间的关联值,然后定义函数选择、同义属性匹配。然而,这种方法基于统计抽样空间,没有充分考虑属性语义之间的关联。同类网站查询接口的集成

16、系统设计与实现513模式匹配方法基于聚类优先选择用于获取相关的属性的匹配方法,首先通过聚类相关的属性的集合,然后用最大的选择策略和贪婪策略和设计新的选择策略相结合的策略,删除不正确的属性关联。然而,该方法只考虑查询接口的属性标记,并忽略其它有用的信息,在同时,不识别匹配的复杂性。然而,这种方法不考虑之间的语义关联的属性和属性忽略了其他有用的信息。基于集群的模式匹配方法,先在小组赛使用的相关属性,那么相似的概念来计算通过聚类的代名词属性终于可以用贪心算法来匹配选择。然而,这种方法将查询接口一组平图案的属性作为一个实体,忽略了丰富的结构信息查询接口。2深网查询接口集成分析属性分析是查询接口集成的最

17、主要途径,利用查询接口的模式信息和语义信息识别不同查询接口属性之间的匹配关系,从而获得一个集成的查询接口,其框架如图所示模式匹配SCHEMAMATCHING模式匹配SCHEMAMATCHING1本体结构2本体辅助属性层次匹配(OMA)3本体辅助实例级匹配(OMA)4生成映射表1生成集成接口的属性标签2生成集成接口的属性类型3生成的集成接口属性值域4生成的集成接口属性的布局图深网查询接口集成框架21模式匹配数据库的自治性使得不同查询接口语义相似或相同的属性具有不同的标签、不同的数据格式与组织结构。为了获得统一的查询接口,对不同的语义查询接口要匹配的属性相同。因此,模式匹配是网络的异构信息集成的关

18、键问题。定义1模式匹配(SCHEMAMATCHING)。可以形式化定义为函数SCHEMAMATCHING(I1,I2,),其中I1,I2为输入信息,A为辅助信息,满足如下条件)I1S1,D1S1为输入模式信息,D1为满足模式S1的数据实例。淮南师范学院2013届本科毕业论文6)I2S2,D2S2为输入模式信息,D2为满足模式S2的数据实例。)A表示所有可利用的帮助更好理解模式语义并协助完成匹配任务的所有辅助信息,如字典、本体等。)匹配函数SCHEMAMATCHING(I1,I2,)在执行过程中先产生模式元素间候选对应关系集,经辅助工具判断最终生成模式元素间确定的对应关系集作为输出。候选对应关系

19、集(CANDIDATECORRESPONDENCESET,CSS)的形式化描述为CSSS1I,S2J,SIMILARYSIMILARY,0,1,其中S1I表示模式S1中第I个元素按语义规则书写的表达式。S1表示模式元素的个数,如果S1M,那么0,M。S2J与S1I类似,表示S2中第J个元素按语义规则书写的表达式,S2表示模式元素的个数,如果S2N,那么J0,N。SIMILARY表示S1I与S2J的相似度,表示相似度阈值,如果S1I与S2J的相似度大于(等于)阈值,那么意味着S1I与S2J相似,将相似关系记录于确定的匹配对应关系集(MATCHINGCORRESPONDENCESET,MCS)中,

20、最后,将作为匹配函数的输出。通过模式匹配模式定义,根据现有的资料,发现语义对应模式成员之间正确的映射,它包含2种类型匹配简单的和复杂的匹配。简单的匹配是指以11的语义属性之间的映射。不同于简单的11匹配,复杂匹配的是属性频繁1M匹配或MN匹配,即M模式属性匹配另一个模式的N个属性。目前的研究重点是11匹配,简化了复杂的匹配,主要由于在搜索空间的属性的所有可能组合的消耗是非常困难的。22模式融合匹配关系模型之间的融合性能,通过建立统一的全局查询接口,集成查询接口。定义2模式融合可以看作一个三元组(DS,IS,IS)DSDS1,DS2,DSN,DS表示在线数据库集合,DSI(1IN)为一个在线数据

21、库;)ISIS1,IS2,ISM,IS表示查询接口模式集合,IS(1JM)为一个数据库的查询接口模式;)ISIS1IS2ISM,IS表示在模式IS1,IS2,ISM匹配基础上,合并了网站查询接口集合中表示同一语义的属性,同时尽可能地保持该领域查询接口的属性顺序和结构特征,产生的集成查询接口页面。一个设计良好的集成查询接口应具备以下3个特点同类网站查询接口的集成系统设计与实现7)完备性(CONCISENESS)在同一领域的深网查询接口中,如果其他查询接口中的任何属性与之都不相似,那么这个属性应该出现在集成查询接口中。)一致性(COHERENCE)源自不同查询接口语义相似的属性以统一的通用属性显示

22、在集成查询接口中,集成查询接口中的属性标签具有一定的共性,能够传递不同查询接口中同义属性的含义。)用户友好性(FRIENDLY)集成查询接口的属性标签应该是该领域中最常用的词汇,且属性间的结构合理,布局恰当,为用户提供较好的可视化效果。3基于本体的深网查询接口集成31本体构建和本体概念模型为了提高本体的构建效率,并在一定程度上能够保证领域本体的质量,提出了一种半自动构建本体的算法。STEP1、通过本体构建工具构建核心本体1)领域术语抽取。确定领域类型,从特定领域深网查询接口表单中对领域术语进行抽取。2)领域概念抽取。领域核心本体要求领域概念必须是语义明确的,所以需要用领域内最通用的语义来描述该

23、类术语。3)概念间层次关系获取。捕获术语间的语义关系,例如同义(SYNONYMY)关系、继承(ISA)关系、包含(PARTOF)关系等。4)领域本体精炼。本体工程师以本体工程学标准对已获取的领域本体概念及概念间的语义关系进行修正。5)领域本体描述。采用本体描述语言(如RDF,XML,OWL等)描述领域本体,本体描述语言提供了机器对文档内容可处理的机制。STEP2、如果某个术语不存在于核心本体中,那么通过匹配方法确定术语和本体概念之间的语义关系。STEP3、如果相匹配,那么将匹配的概念加入到核心本体适当位置,以完成本体的自动扩展。完成本体构建后,本体可以形式化地表示为概念层次结构,用户的查询以及

24、相关数据可以映射到概念空间,它可以看作是一个保存概念和概念之间关系的知识系统。定义3领域本体概念模型(DOMAINONTOLOGYCONCEPTMODEL,DOCM)。描述了特淮南师范学院2013届本科毕业论文8定领域实体的术语组织以及术语之间的关系,每个概念可以形式化为CLASSAI,DTI,SI,CII,CAI,SCI,NI1,NI2,NIK,NI,表示与该概念相关的数据信息,其中AI表示概念主类,它是特定领域下通用的、人们易于理解的词汇,该词汇表示一类概念,可以看作描述这类概念的关键字;DTI表示概念所属的数据类型;SI表示概念主类的同义词集合,即概念别名;CII表示概念主类的实例集合;

25、CAI表示与概念相关的条件属性集合,主类与条件属性表示包含关系;SCI表示概念主类的子类集合,主类与子类表示继承关系;NI1,NI2,NIK表示概念主类的K个实例的计数器;NI表示概念主类的计数器。DOCM具有良好的组织结构,能够清晰地描述概念及概念之间的关系。本体构建采用PROTG是一个史丹佛大学开发的本体编辑和知识获取软件,开发语言采用JAVA,属于开放源码软件作为本体编辑工具,并以OWL作为本体描述语言。通过对OWL文件的操作,可以很容易地实现对DOCM的调用。32基于本体的模式匹配基于本体的网站查询接口模式匹配方式有属性级和实例级2种匹配定义4本体的属性级匹配。假设A表示WEB数据库查

26、询接口的属性,AI表示DOCM中概念节点的概念主类,SI表示AI的同义词集合,CAI表示AI的条件属性,SCI表示AI的子类,SIM(A,AI)表示应用基于本体的短语相似度算法。计算A与AI的相似度值,表示相似度阈值,NI表示AI的计数器。属性级匹配存在以下几种情况)如果ASI或者AAI,那么表示A与AI是11的属性匹配,AI的计数器加,即;)如果ASI,AAI,且SI(A,AI),那么表示A与AI是11的属性匹配,同时,将A作为AI的一个同义词加入同义词集合SI中,AI的计数器加1,即NINI1;)如果ACAISCI,那么表示A与AI是M1的属性匹配,AI的计同类网站查询接口的集成系统设计与

27、实现9数器加,即NINI1;)如果ADOCMAI,SI(A,AI),表示A与AI不存在匹配关系,那么创建一个新类CLASS,将A作为CLASS的主类加入DOCM中,并设置A的计数器为。定义5基于本体的短语相似度算法。给定短语P1和短语P2,通过预处理将短语P1和短语P2分别表示为词集P1C1,C2,CM和P2CL1,CL2,CLN,对于短语P1中的每个词汇CI(1IM,借助通用本体WORDNET分别计算其与短语P2中每个词汇CLJ(1JN)的相似度,其计算如式(1)所示其中,OVERLAPCI,CLJ表示词汇CI与词汇CLJ的语义重合度,即在WORDNET概念树中,词汇CI与词汇CLJ之间包含

28、相同上位概念的个数。DEPTHCI表示词汇CI的概念深度,即词汇CI在WORDNET概念树中到达根节点的层次深度,同理,DEPTHCLJ表示词汇CLJ在WORDNET概念树中到达根节点的层次深度。如果短语P1中词汇CI与短语P2中词汇CLJ相同,那么SIMCI,CLJ1。然后,在短语P2中找到与短语P1中词汇CI相似度最大的值作为短语P1相似度值集中的一个值SI,从而获得短语P1的相似度值集SIM1S1,S2,SM,采样同样方法获得短语P2的相似度值集SIM2SL1,SL2,SLN。短语P1和P2的最后相似度通过每个短语中词汇各自的相似度占总单词个数的比例获得,其计算如式2所示假设给定短语P3

29、,为相似度阈值。如果SIMP1,P2SIMP1,P3成立,那么可以推测短语P2和短语P3是语义相似的,都应记录于匹配对应关系集中。通过关键字属性级匹配方法,可以准确识别DOCM中类或属性与来自不同查询接口属性之间的匹配关系,不仅能够识别简单匹配,而且能够识别复杂匹配。相比于传统模式匹配方法,大大提高了匹配精度并降低了模式匹配过程的复杂性。假设属性来自查询接口QI1,属性来自查询接口QI2,即EQI1,FQI2,同时,在DOCM中存在主类G,该主类G包含2个同义词汇E和F,那么,在比较查询接口QI1中属性E和查询接口QI2中属性F时,首先比较查询接口QI1中属性E与DOCM淮南师范学院2013届

30、本科毕业论文10中主类的相似度。通过比较,如果发现查询接口QI1中属性E与DOCM中主类G相似,并且在G的同义词集合中包括同义词F,那么DOCM中的主类G可以看作“桥接”,进而推出查询接口QI1中属性E和查询接口QI2中属性F是相似的,此时查询接口QI1中属性E和查询接口QI2中属性F为11的简单匹配。对于MN匹配,首先将其转换为M1匹配和1N匹配,进而获得MN匹配。例如某个源查询接口中存在属性“公共属性”,它包含2个条件属性“DATEFROM”和“DATETO”,当查找DOCM时,DOCM中包含类属性“FROM”和“TO”,并且类属性“FROM”和“TP”在DOCM中的概念主类为“出版日期,

31、那么通过比较可知源查询接口属性“PUBLICATION”与DOCM中主类“出版日期”是相似的,进而可以推知“PUBLICATION”与“FROM”和“TO”为1M匹配,“DATEFROM”与“PUBLICATIONDATE”为M1匹配,“FROM”和“TO”与“DATEFROM”和“DATETO”为MN匹配。定义6基于本体的实例级匹配。假设A表示WEB数据库查询接口的属性,AI表示DOCM中概念节点CI的概念主类,CI表示A的实例集合,CII表示AI的实例集合,NI1,NI2,NIK表示AI的K个实例计数器集合。如果A与AI相似,那么SIMA,AI成立,其中表示A和AI的相似度阈值。对于查询接

32、口属性A的实例INSJ,INSJCI,存在以下几种情况1如果INJCII,那么NIHJNIJ1;2如果INSJCII,CIIINS1,INSK,SIMINSJ,INSMMSIMINSJ,INS1,SIMINSJ,INS2,SIMINJ,INSK,1MK,那么NIMNIM1,否则表示实例INSJ的概念不存在于AI的实例中,那么将INSJ作为一个新实例加入DOCM中类AI的CII中,同时,将新实例的初始计数器设置为1。例、假设源查询接口包含属性“CATEGORY”,其实例空间为“ARCHITECTUREANDPHOTOGRAHY”,“PHILOSOPHY”,“BIOGRAPHY”,DOCM中包含主

33、类“SUBJECT”,其实例空间为“HISTORY”,“PHILOSOPHY”,“ARCHITECTURE”。由于源查询接口属性“CATEGORY”与DOCM中主类“SUBJECT”相似,因此,需要合并属性值,以确定实例空间。通过基于本体的短语相似度算法计算“ARCHITECTUREANDPHOTOGRAHY”与“ARCHITECTURE”是相似的,那么DOCM中主类“SUBJECT”的实例“ARCHITECTURE”计数器加1;源查询接口属性实例“PHILOSOPHY”在DOCM中主类“SUBJECT”的实例值中,那么DOCM中主类“SUBJECT”的实例“PHILOSOPHY”计数器加1;

34、源查询接口属性实例“BIOGRAPHY”与DOCM中主同类网站查询接口的集成系统设计与实现11类“SUBJECT”的所有实例值均不相似,表明实例“BIOGRAPHY”不存在于DOCM中主类“SUBJECT”的实例值中,那么将“BIOGRAPHY”作为主类“SUBJECT”的一个新实例加入DOCM中主类“SUBJECT”的实例值中,并将计数器初始值设置为1,以丰富本体实例。查询接口集成模式匹配详细流程如图2所示图2查询接口集成模式匹配过程其过程可以分为3个阶段1、数据预处理为了避免因为形式上的差别导致丢失匹配,在执行匹配过程之前,需要对查询接口及DOCM进行标准化处理。标准化步骤STEP1、考察

35、每个词汇,如果词汇中含有不属于集合,0,9的字符,那么将其用空格字符替换。STEP2、转换所有的大写字符为与之等价的小写字符。STEP3、停用词移除。停用词是指那些在语言中常常出现、但是可以忽略的单词。它淮南师范学院2013届本科毕业论文12们作为句子的组成成分,却不能表达文档的任何内容。STEP4、转换词汇中的缩写和简写。STEP5、通常,一个词汇在不同的语境中有着不同的语法形式,词干提取使得匹配过程能接受单词的不同变化形式,从而提高查全率。因此,需要对每个词汇使用词干分析算法提取词干。2、匹配发现STEP1、依次遍历每个源查询接口的模式链表,获取每个逻辑属性的属性标签;STEP2、通过基于

36、本体的属性级匹配算法对该属性标签进行匹配;STEP3、如果源查询接口属性含有实例集合,那么调用基于本体的实例级匹配算法;STEP4、最后将匹配结果存储于映射表中。3)、记录匹配关系映射表结构如图3所示,它记录了DOCM中每个本体概念与之相匹配的所有源查询接口属性之间的映射关系。映射表以链表形式表示,每个本体概念结点链接了与该结点相匹配的源查询接口属性信息,这些信息包括URL,ACTION,NAME,TYPE,LABEL,VALUE,CONSTRAINT。图3映射表通过映射关系能够自动识别相同语义查询接口的不同表现形式,将异构数据库进行整合。33模式融合规则模式融合通过由模式匹配器识别出的属性映

37、射关系合并源查询接口的模式,以构造全局查询接口。接口模式的融合包括4个方面1)、查询接口集成属性标签的确定同类网站查询接口的集成系统设计与实现13网站查询接口集成以源查询接口模式作为输入,通过DOCM建立语义相近属性间的映射关系,将多个数据库模式生成为模式元素间属性与DOCM中概念的映射,在不同查询接口间发现11匹配和MN匹配,使这些模式合并为统一的全局模式。由于不同查询接口界面不同,并且对于同一查询条件命名方式也不相同,因此,通过基于本体的深网接口模式匹配,将不同查询接口的属性标签映射为DOCM中的类概念,用DOCM中的主类对不同查询接口表示相同语义的元素统一命名,作为集成查询接口的属性标签

38、,同时保留集成查询接口与各源查询接口的映射关系。2)、查询接口集成属性类型的确定根据类型识别器识别各属性的类型,属性类型由以下两个规则确定规则1、如果所有已匹配同义属性具有相同的类型MAINE,那么全局属性的属性类型为该类型。规则2、如果各源查询接口同义属性的类型不完全相同,那么分别记录各源查询接口同义属性类型个数,在集成查询接口中,以出现次数最多的属性类型作为集成查询接口该属性的类型。3)、查询接口集成的属性值即搜索空间的确定在查询接口集成属性值的选择过程中,根据属性类型的不同,属性值融合分为2种方式字符类型属性值融合和数值类型属性值融合。对于不同查询接口的同义属性,如果该属性的属性值与DO

39、CM中同义主类的实例相匹配,那么不作处理;如果该属性的属性值与DOCM中同义主类的实例不相匹配,那么,将源查询接口属性的属性值作为该主类的新实例加入到DOCM中。字符类型值融合MERGINGALPHABETICDOMAINS使用值之间的语义关系来合并它们并生成全局值集合。选择方法包括以下2种字符串匹配APPROXIMATESTSTRINGMATCHING。两个属性名字的一种近似字符串匹配是找出两个名字字符串的编辑距离是否在一个允许的阈值内。编辑距离,即将一个字符串转换成另一个字符串所需要插入、删除和替换的字符数。例如,将NKN转换成NIKON需要添加2个字符,而较长的字串长度为5,因此它们的编

40、辑距离为25,即04。短语相似度匹配PHRASESIMILARTYMATCHING。即使用基于本体的短语相似度算法获得两个包含多个单词的属性值的相似度,如果相似则选择最常用的值作为全局属性值。淮南师范学院2013届本科毕业论文14例4、如图4所示,属性“SUBJECT”和属性“CATEGORY”来自2个不同的源查询接口,DOCM中包含主类“SUBJECT”,因此,集成查询接口中该同义属性以DOCM中的主类为主,即为“SUBJECT”,经过相似度计算,合并每个查询接口的实例值,得到集成查询接口属性“SUBJECT”的实例值。图4合并字符型实例值例子数值类型值融合分为离散型数值和区间型数值。对于离

41、散型数值融合只需将各源查询接口同义属性的离散数值合并即可。对于区间型数值一般由数值和区间RANGE修饰语联合表示。例如,“BABY”被解释成“UNDER3YEARS”,“TEEN”表示“1318YEARS”,“ADULT”表示“OVER18YEARS”。此时,需要建立一个语义词典保存常用的RANGE标识,并记录RANGE的含义,如表1所示范围修饰符符号小于超于远超于表1区间标识符字典例5、如果2个源查询接口的同义属性的属性值均含有数值区间类型值,那么在合并值的过程,首先解析属性值,对于未出现于区间标识符字典中的字符除数字外用空格表示,出现过的字符,根据区间标识符字典,将属性值表示为数值区间。当

42、属性的属性值匹配完毕后,按照升序对属性值进行排序,并在每两个相邻值之间增加区间标识,如图5所示同类网站查询接口的集成系统设计与实现15局部范围10以下102020303040局部范围小于5小于10小于15小于20小于50全局范围05510101515202030304050图5区间型数值合并过程4、集成查询接口布局的确定。一般情况下,用户友好的、重要的、使用频率高的属性出现在查询接口的前面位置。在源查询接口中,每个属性都有各自的位置,而属性布局的位置反映了属性的重要程度。通常,查询接口的前几个属性的使用频率比后面属性的使用频率高。为了保证重要的属性仍然在全局查询接口的前面位置,引入属性位置平均

43、值概念,用于确定全局查询接口属性的排序。定义7、属性位置平均值ATTRIBUTEAVERAGEPOSITION。集成查询接口属性的位置平均值等于该属性在所有源查询接口中位置的总和与其出现次数总和的比值,其计算如式3所示其中M表示所有包含与CI匹配的源查询接口个数;LPOSKCI表示属性CI在查询接口K中的位置;LFEOKCI表示属性CI在查询接口K中出现的次数,如果是11匹配,则为1;如果是复杂匹配,则为查询接口中复杂匹配的属性个数。查询接口集成的布局规则如下规则1、当布局集成查询接口时,首先按照全局属性的位置平均值升序排序,值较小的属性排列在前面。规则2、如果属性位置平均值相同,那么按照全局

44、属性的出现频率和的顺序排列,淮南师范学院2013届本科毕业论文16频率和较大说明属性较为重要,需要放在前面。规则3、如果集成查询接口的属性包括所有源查询接口属性,那么集成查询接口属性的数量可能会较多。为了消除一些不重要的属性,可以考虑设置一个阈值,用来表示集成查询接口中所期望的属性个数。4实验应用PROTG工具构建领域本体,并通过JAVAAPI对PROTG进行调用。在比较相似度的过程中,通过JWNLAPI调用WORDNET,同时,借助DOCM获取所有接口间的模式匹配,实现查询接口的集成。以图书领域为例,如果集成查询接口属性个数阈值设置为10,相似度阈值设置为08。图6深网集成查询接口示例其中区

45、域1表示参数设置;区域2表示源查询接口的URL集合;区域3表示一个查询接口界面;区域4表示集成查询接口界面;区域5表示查询接口间的匹配过程。如果用户从区域2中选择一些URL,那么经过模式抽取和模式匹配后,将在区域4中产生这些的集成查询接口;如果用户需要比较某个源查询接口和集成查询接口的差异时,用户可以从区域2中选择源查询接口的URL,双击该URL,其接口结构将在区同类网站查询接口的集成系统设计与实现17域3中显示。通过区域3和区域4,用户可以很容易地了解不同查询接口之间的差异。为了进一步验证本文方法的可行性和高效性,分别进行以下3个实验实验1、模式匹配采用信息检索中的查全率、查准率和FMEAS

46、URE来评价查询接口模式匹配的精度。查全率指由算法所识别出的正确匹配占所有匹配的百分比,查准率指由算法所识别出的正确匹配占所识别匹配的百分比,FMEASURE是一个把查全率和查准率结合起来的指标,FMEASURE值越大系统性能越好。网站查询接口集成的数据集来自UIUC集成知识库,从该数据集中选择46个图书领域查询接口用以验证本文的方法。如果属性匹配阈值设置为08,那么模式匹配结果如表2所示数值属性编号查全率查准率FMEASURE1086091809290923201400921093509283020609320932093246306093509410938表2基于本体的模式匹配结果实验结果

47、表明,随着查询接口数目的增加,查全率、查准率和FMEASURE逐渐提高。原因在于模式匹配的过程中,不断地将未包含于本体中的概念加入到本体的适当位置,使得领域本体不断完善。由于模式匹配的精度在很大程度上依赖于本体知识库的完备性。因此,一般来说,领域本体知识库越完备属性匹配精度越高。实验2、模式融合采用信息检索中的查全率、查准率和FMEASURE来评价查询接口模式融合的精度。查全率指由算法所识别出的正确融合属性占所有融合属性的百分比,查准率指由算法所识别出的正确融合属性占所识别融合属性的百分比。由于属性值级的合并精度主要取决于属性类型为“SELECT”和“TEXTAREA”的值合并,因此,以46个

48、表单为例,通过合并实验1的匹配属性,其属性值的合并结果如表3所示表3属性值合并结果域类型属性编号查全率查准率FMEASURE字母的值66083308730853离散数值10090909连续性数值7071408330769属性值的合并主要为字符类型值融合和数值类型值融合。从实验2可以看出,对于字符类型值融合和离散型数值融合其精度较高,而对于区间型数值融合由于通常包含修淮南师范学院2013届本科毕业论文18饰词语,需要查找区间标识符字典才能准确合并区间型数值,其精度主要取决于区间标识符STEP字典,因此,相对于字符类型值融合和离散型数值融合,区间型数值融合精度较低。实验3、集成查询接口集成查询接口

49、的集成精度可以定义为式4其中,I表示集成查询接口,IAI表示集成查询接口精度,M表示源查询接口集合中的接口个数,MI表示查询接口I与集成查询接口相匹配的属性个数。集成查询接口精度如表4所示数值属性编号查全率查准率FMEASURE1086091809290923201400921093509283020609320932093246306093509410938表4深网集成查询接口深度通过实验3可以看出,随着表单数量的增加,网站查询接口的集成精度趋于稳定,并且较高,因此,可以看出此查询接口集成方法是高效可行的。与以往的方法相比,引入本体技术实现查询接口的集成不仅简化了模式匹配的复杂过程,克服了单纯基于统计方法在语义理解上的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。