基于包装器的Web信息抽取算法实现【文献综述】.doc

上传人:文初 文档编号:17543 上传时间:2018-04-26 格式:DOC 页数:4 大小:25KB
下载 相关 举报
基于包装器的Web信息抽取算法实现【文献综述】.doc_第1页
第1页 / 共4页
基于包装器的Web信息抽取算法实现【文献综述】.doc_第2页
第2页 / 共4页
基于包装器的Web信息抽取算法实现【文献综述】.doc_第3页
第3页 / 共4页
基于包装器的Web信息抽取算法实现【文献综述】.doc_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、毕业设计文献综述计算机科学与技术基于包装器的WEB信息抽取算法实现摘要对基于包装器的WEB信息抽取技术进行了描述,阐述了WEB信息抽取算法的意义,并介绍了WEB抽取算法的实现原理和研究现状,最后提出了自己对WEB信息抽取算法袖的研究方法。关键词信息抽取;包装器;抽取规则一、研究基于包装器的WEB信息抽取算法的意义当今社会随着互联网的迅速发展,互联网上流通的信息也在爆炸性地增长,并正在成为我们工作和生活中不可或缺的一员。然而,由于WWW是一个虚拟的开放环境,任何人和任何团体都可以在其上发表文章或言论。为帮助互联网用户有效地发布与接受信息,众多的互联网搜索引擎不断出现,向广大用户提供基本的信息检索

2、服务,怎样快速有效经济地检索到某个主题的所有相关信息,就成了一个十分热门的课题。WEB信息抽取技术就是有效解决如何准确的从WEB页面中抽取所需要内容的一项技术1。二、WEB信息抽取算法的研究现状1WEB信息抽取算法的基本原理经过几十年的发展,主流的信息抽取技术一般可以分为基于自然语言理解,基于机器学习,基于ONTOLOGY和基于网页结构分析等方法2。(1)基于自然语言理解的方法自然语言的理解在传统的信息抽取问题中已经得到了广泛的研究,采用过滤,词性和词汇主义标识来建立短语和语句元素间的关联,通过给定的例子学习抽取规则。这些规则通过语法上的约束来定位元素。(2)基于包装器的方法包装器归纳方式的信

3、息抽取根据事先由用户标记的样本实例,应用机器学习归纳算法,生成基于分隔符的抽取规则。其中分隔符实质是对感兴趣语义项上下文的描述,即根据语义项的左右边界来定位语义项。包装器归纳方式和基于自然语言理解方式的不同之处仅仅在于它使用语义项的上下文来定位信息并没有用到语言的语法约束,而是使用可以明确描绘所要数据块结构的特征格式3。(3)基于ONTOLOGY的方法前面所介绍的方法都依赖利用一个文档中数据的表示特征结构,来后成抽取规则或模式。然而,抽取也可以直接依赖数据本身的描述信息来完成,而对网页结构的依赖较少。而基于ONTOLOGY方法事先需由领域知识专家采用人工方式编写某一应用领域的ONTOLOGY,

4、包括对象的模式,常值和关键字等信息,其中常值和关键字提供了语义项的描述信息。通过解析这个ONTOLOGY,系统能识别和抽取输入文档或页面的表示数据,并自动生成一个数据库45。(4)基于网页结构分析的方法这种技术依赖于HTML文档的内部结构特征一完成数据抽取。在开始抽取之前通过解析器将WEB文档解析成一棵语法树,半自动或自动的生成抽取规则,并应用到语法树上完成信息抽取操作67。2国内研究现状目前国内外研究较多的信息抽取技术基本上都是从网页上抽取具有固定格式或者信息组织分布相同的信息,如会议论文信息,商品信息,图书信息。这些研究的目的不是为了提取网页中的正文内容,而是为了把网页中的无结构化数据或半

5、结构化,不规整的数据转换成结构化规整的数据。通常人们使用抽取页面正文部分信息的技术,如果网页正文信息抽取这种技术集成到文摘系统中,就可以方便的摘取网页的摘要;如果集成到文本分类系统中,就可以自动对网页分类聚类,这样就扩大了原有技术的适用范围。所以研究网页内容抽取技术对于自然语言技术的适用范围扩展到网页处理有着很大的意义。由于起步较晚以及中文信息处理的特殊性,中文信息抽取的水平与国外显得比较落后,主要的研究工作集中在中文命名实体识别上。20世纪90年代初期开始,国内外一些学者对中文通用命名实体识别进行了一些研究。如清华大学的孙茂松是国内最早做中文人名识别的,主要采用统计的方法计算姓氏和人名用字概

6、率。山西大学的刘开瑛做过人名,地名等实体的识别,他采用还是有统计为主的方法。复旦大学的吴立德对中文人名,组织机构名识别进行过研究采用了基于统计的方法,或者是基于规则的方法,或者是统计和规则相结合的方法,均取得了不错的效果8。但是国内在信息抽取模板自动获取方面的研究国内还是很少,但同时这又是信息抽取研究方面急待解决的一个问题9。三、WEB信息抽取算法的研究方法;1网页的解析首先要对网页进行预处理,因为网页中含有大量垃圾代码和不必要的广告信息及冗余的脚本代码。然后对经过预处理的网页提取其中的正文信息。经过这样处理后,原网页就变为了可以被包装器所识别的格式。这部分工能预期使用HTMLPARSER来实

7、现。2抽取规则的产生包装器就是一个根据用户提供的URL地址,返回给用户需要的信息的系统。包装器的抽取规则主要根据页面的结构决定。如下例一个表结构的有关产品信息的HTML文档如下CONPANYPRODUCTINFORMATIONCOMPANYPRODUCTINFORMATIONALICEMUTTON20IKGTINS3900ANISESYRUB12550MLBOTTLES1000BOSTONCRABMEAT24402TINS1840CAMARIONTIGERS16KGPKG6265CHAI10BOXES_20BAGS1800KURA12200MLJARS3100POHCOFEE16500GTIN

8、S4600END以上例子的一个典型的包装器如下EXTRACT页面P扫描碳P忽略掉的第一次出现前的字符串从页P尾部逆向扫描,直到第一次出现/得到内容主体WHILE扫描内容主体若存在的下一次出现FOR每一个,抽取LK在页P中的下一次出现和随后的RK出现之间的字符串做为第K个属性的下一个值返回抽取的各个元组在本次课题中,模仿上述方法,选取某些具有特定结构特征的页面,编写一类或几类包装器,实现对页面信息的抽取。四、参考文献1韩客松,王永成,腾伟WEB页面中文文本主题的自动提取研究情报学报,200942周顺先,林亚平,王耀南文本信息抽取模型及算法研究湖南大学出版社,20003王敬普,林亚平,周顺先,岳文

9、基于包装器模型的文本信息抽计算机应用第26卷第3期2006,34于江德中文WEB信息提取中实体关系的研究计算机与信息技术20095庄明,老松杨,吴玲达一种统计和词性相结合的命名实体发现方法J计算机应用,20046许建潮,王颖楠,胥桂仙WEB文本信息抽取与挖掘方法吉林工学院学报自然科学版2002年1期23卷7梅雪,程学旗,郭岩等一种全自动生成网页信息抽取WRAPPER的方法中文信息学报J20088李永丽,张玉良一种基于后缀树的包装器自动生成方法研究J计算机工程与应用20079蔡晓白,樊孝忠疾病命名短语识别的最大熵方法J北京理工大学学报,200610FREITAGD,MCCALLUMA,PEREI

10、RAFMAXIMUMENTROPYMARKOVMODELSFORINFORMATIONEXTRACTIONANDSEGMENTATIONA,PROCEEDINGDOFICMLC,200011HANH,GILESC,MANAVOGLUE,ETALAUTOMATICDOCUMENTMETADATAEXTRACTIONUSINGSUPPORTVECTORMACHINESAINPROCEEDINGSOFJOINTCONFERENCEONDIGITALLIBRARIESCHOUSTONIEEEPRESS,200312SODERLANDSLEARNINGINFORMATIONEXTRACTIONRULESFORSSEMISTRUCTUREDANDFREETEXTJMACHINELEARNING1999

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 开题报告

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。