1、1毕业设计文献综述计算机科学与技术基于包装器的WEB信息抽取算法实现一、选题的背景与意义当今社会随着互联网的迅速发展,互联网上流通的信息也在爆炸性地增长,并正在成为我们工作和生活中不可或缺的一员。然而,由于WWW是一个虚拟的开放环境,任何人和任何团体都可以在其上发表文章或言论。为帮助互联网用户有效地发布与接受信息,众多的互联网搜索引擎不断出现,向广大用户提供基本的信息检索服务,怎样快速有效经济地检索到某个主题的所有相关信息,就成了一个十分热门的课题。WEB信息抽取技术就是有效解决如何准确的从WEB页面中抽取所需要内容的一项技术。信息抽取(INFOMATIOMEXTRACTION)就是从新闻,文
2、献,资料等非结构化或半结构化的电子文件中有针对性地提取感兴趣的信息形成结构化的数据库文件,以便用户检索和统计,辅助用户决策。它从用户的角度来理解现有的信息世界,不是为用户提供需要的文档,而是从文档中抽取用户所需要的信息。在抽取出信息的同时保持源文档和抽出信息之间的链接,方便用户参考源文档。信息抽取通过文本分析,主义分析,结构化生成等过程抽取出有效的语义内容。经过几十年的发展,主流的信息抽取技术一般可以分为基于自然语言理解,基于机器学习,基于ONTOLOGY和基于网页结构分析等方法。1、基于自然语言理解的方法自然语言的理解在传统的信息抽取问题中已经得到了广泛的研究,采用过滤,词性和词汇主义标识来
3、建立短语和语句元素间的关联,通过给定的例子学习抽取规则。这些规则通过语法上的约束来定位元素。2、基于包装器的方法包装器归纳方式的信息抽取根据事先由用户标记的样本实例,应用机器学习归纳算法,生成基于分隔符的抽取规则。其中分隔符实质是对感兴趣语义项上下文的描述,即根据语义项的左右边界来定位语义项。包装器归纳方式和基于自然2语言理解方式的不同之处仅仅在于它使用语义项的上下文来定位信息并没有用到语言的语法约束,而是使用可以明确描绘所要数据块结构的特征格式。3、基于ONTOLOGY的方法前面所介绍的方法都依赖利用一个文档中数据的表示特征结构,来后成抽取规则或模式。然而,抽取也可以直接依赖数据本身的描述信
4、息来完成,而对网页结构的依赖较少。而基于ONTOLOGY方法事先需由领域知识专家采用人工方式编写某一应用领域的ONTOLOGY,包括对象的模式,常值和关键字等信息,其中常值和关键字提供了语义项的描述信息。通过解析这个ONTOLOGY,系统能识别和抽取输入文档或页面的表示数据,并自动生成一个数据库。4、基于网页结构分析的方法这种技术依赖于HTML文档的内部结构特征一完成数据抽取。在开始抽取之前通过解析器将WEB文档解析成一棵语法树,半自动或自动的生成抽取规则,并应用到语法树上完成信息抽取操作。目前国内外研究较多的信息抽取技术基本上都是从网页上抽取具有固定格式或者信息组织分布相同的信息,如会议论文
5、信息,商品信息,图书信息。这些研究的目的不是为了提取网页中的正文内容,而是为了把网页中的无结构化数据或半结构化,不规整的数据转换成结构化规整的数据。通常人们使用抽取页面正文部分信息的技术,如果网页正文信息抽取这种技术集成到文摘系统中,就可以方便的摘取网页的摘要;如果集成到文本分类系统中,就可以自动对网页分类聚类,这样就扩大了原有技术的适用范围。所以研究网页内容抽取技术对于自然语言技术的适用范围扩展到网页处理有着很大的意义。由于起步较晚以及中文信息处理的特殊性,中文信息抽取的水平与国外显得比较落后,主要的研究工作集中在中文命名实体识别上。20世纪90年代初期开始,国内外一些学者对中文通用命名实体
6、识别进行了一些研究。如清华大学的孙茂松是国内最早做中文人名识别的,主要采用统计的方法计算姓氏和人名用字概率。山西大学的刘开瑛做过人名,地名等实体的识别,他采用还是有统计为主的方法。复旦大学的吴立德对中文人名,组织机构名识别进行过研究采用了基于统计的方法,或者是基于规则的方法,或者是统计和规则相结合的方法,均取得了不错的效果。但是国内在信息抽取模板自动获取方面的研究国内还是很少,3但同时这又是信息抽取研究方面急待解决的一个问题。二、基本内容与拟解决的主要问题一基本内容本次课题是基于包装器的方法来实现WEB文本信息抽取。包装器是一种软件构件,负责将数据和查询请求由一种模式转成另一种模式。一个包装器
7、实际上可看作是一类页面到该页面所含元组集合的函数。在WWW信息应用中,包装器是一个软件过程,用已经定义好的信息抽取规则,将输入的WEB页面中的信息抽取出来,转换成用特定格式描述的信息(结构化信息)包装器的工作过程如图1所示本次课题的主要任务主要分为以下二个方面1、熟悉JAVA编程工具,掌握JAVA编程过程。2、针对某一类或几类特定的页面设计抽取规则,实现对页面的信息抽取。二拟解决的主要问题1、如何把普通页面中转换为包装器可以识别并操作的页面。2、要理解应用包装器的抽取模型的工作过程。3、要编写出针对某一类型页面信息抽取的抽取规则,最终实现系统。图1包装器的抽取过程三、方法与技术路线规则执行模块
8、信息转换模块规则库输入页面抽取出的信息其它信息系统包装器41、网页的解析首先要对网页进行预处理,因为网页中含有大量垃圾代码和不必要的广告信息及冗余的脚本代码。然后对经过预处理的网页提取其中的正文信息。经过这样处理后,原网页就变为了可以被包装器所识别的格式。这部分工能预期使用HTMLPARSER来实现。2、抽取规则的产生包装器就是一个根据用户提供的URL地址,返回给用户需要的信息的系统。包装器的抽取规则主要根据页面的结构决定。如下例一个表结构的有关产品信息的HTML文档如下CONPANYPRODUCTINFORMATIONCOMPANYPRODUCTINFORMATIONALICEMUTTON2
9、0IKGTINS3900ANISESYRUB12550MLBOTTLES1000BOSTONCRABMEAT24402TINS1840CAMARIONTIGERS16KGPKG6265CHAI10BOXES_20BAGS1800KURA12200MLJARS3100POHCOFEE16500GTINS4600END以上例子的一个典型的包装器如下EXTRACT页面P扫描碳P忽略掉的第一次出现前的字符串从页P尾部逆向扫描,直到第一次出现/得到内容主体WHILE扫描内容主体若存在的下一次出现FOR每一个,抽取LK在页P中的下一次出现和随后的RK出现之间的字符串做为第K个属性的下一个值返回抽取的各个元
10、组5在本次课题中,模仿上述方法,选取某些具有特定结构特征的页面,编写一类或几类包装器,实现对页面信息的抽取。四、总体安排与进度本课题的总体安排和进度主要可以分成以下几个方面1、2010年12月2011年1月开题阶段,主要是熟悉课题,并收集相关的资料和书籍进行阅读和领悟,完成开题报告和文献综述。2、2011年1月中旬1月下旬,应用总体设计与详细设计阶段,明确应用所包含模块,确定模块功能,如何实现这些模块功能。3、2011年2月3月上旬,结合框架设计模型仔细编写这些模块4、2011年3月中旬3月下旬,测试和发布。5、2011年4月,撰写论文,准备毕业答辩。五、主要参考文献1韩客松,王永成,腾伟WE
11、B页面中文文本主题的自动提取研究情报学报,200942于江德中文WEB信息提取中实体关系的研究计算机与信息技术20093柳佳刚,刘高基于WEB信息抽取技术现状与发展,2008,64许建潮,王颖楠,胥桂仙WEB文本信息抽取与挖掘方法吉林工学院学报自然科学版2002年Z1期23卷5周顺先,林亚平,王耀南文本信息抽取模型及算法研究湖南大学出版社20006SODERLANDSLEARNINGINFORMATIONEXTRACTIONRULESFORSSEMISTRUCTUREDANDFREETEXTJMACHINELEARNING19997FREITAGD,MCCALLUMA,PEREIRAFMAXI
12、MUMENTROPYMARKOVMODELSFORINFORMATIONEXTRACTIONANDSEGMENTATIONA,PROCEEDINGDOFICMLC,20008梅雪,程学旗,郭岩等一种全自动生成网页信息抽取WRAPPER的方法中文信息学报【J】20089李永丽,张玉良一种基于后缀树的包装器自动生成方法研究【J】计算机工程与应用2007610王敬普,林亚平,周顺先,岳文基于包装器模型的文本信息抽计算机应用第26卷第3期2006,37毕业设计文献综述计算机科学与技术基于包装器的WEB信息抽取算法实现摘要对基于包装器的WEB信息抽取技术进行了描述,阐述了WEB信息抽取算法的意义,并介绍
13、了WEB抽取算法的实现原理和研究现状,最后提出了自己对WEB信息抽取算法袖的研究方法。关键词信息抽取;包装器;抽取规则一、研究基于包装器的WEB信息抽取算法的意义当今社会随着互联网的迅速发展,互联网上流通的信息也在爆炸性地增长,并正在成为我们工作和生活中不可或缺的一员。然而,由于WWW是一个虚拟的开放环境,任何人和任何团体都可以在其上发表文章或言论。为帮助互联网用户有效地发布与接受信息,众多的互联网搜索引擎不断出现,向广大用户提供基本的信息检索服务,怎样快速有效经济地检索到某个主题的所有相关信息,就成了一个十分热门的课题。WEB信息抽取技术就是有效解决如何准确的从WEB页面中抽取所需要内容的一
14、项技术1。二、WEB信息抽取算法的研究现状1WEB信息抽取算法的基本原理经过几十年的发展,主流的信息抽取技术一般可以分为基于自然语言理解,基于机器学习,基于ONTOLOGY和基于网页结构分析等方法2。(1)基于自然语言理解的方法自然语言的理解在传统的信息抽取问题中已经得到了广泛的研究,采用过滤,词性和词汇主义标识来建立短语和语句元素间的关联,通过给定的例子学习抽取规则。这些规则通过语法上的约束来定位元素。(2)基于包装器的方法包装器归纳方式的信息抽取根据事先由用户标记的样本实例,应用机器学习归纳算法,生成基于分隔符的抽取规则。其中分隔符实质是对感兴趣语义项上下文的描述,即根据语义项的左右边界来
15、定位语义项。包装器归纳方式和基于自然语言理解方式的不同之处仅仅在于8它使用语义项的上下文来定位信息并没有用到语言的语法约束,而是使用可以明确描绘所要数据块结构的特征格式3。(3)基于ONTOLOGY的方法前面所介绍的方法都依赖利用一个文档中数据的表示特征结构,来后成抽取规则或模式。然而,抽取也可以直接依赖数据本身的描述信息来完成,而对网页结构的依赖较少。而基于ONTOLOGY方法事先需由领域知识专家采用人工方式编写某一应用领域的ONTOLOGY,包括对象的模式,常值和关键字等信息,其中常值和关键字提供了语义项的描述信息。通过解析这个ONTOLOGY,系统能识别和抽取输入文档或页面的表示数据,并
16、自动生成一个数据库45。(4)基于网页结构分析的方法这种技术依赖于HTML文档的内部结构特征一完成数据抽取。在开始抽取之前通过解析器将WEB文档解析成一棵语法树,半自动或自动的生成抽取规则,并应用到语法树上完成信息抽取操作67。2国内研究现状目前国内外研究较多的信息抽取技术基本上都是从网页上抽取具有固定格式或者信息组织分布相同的信息,如会议论文信息,商品信息,图书信息。这些研究的目的不是为了提取网页中的正文内容,而是为了把网页中的无结构化数据或半结构化,不规整的数据转换成结构化规整的数据。通常人们使用抽取页面正文部分信息的技术,如果网页正文信息抽取这种技术集成到文摘系统中,就可以方便的摘取网页
17、的摘要;如果集成到文本分类系统中,就可以自动对网页分类聚类,这样就扩大了原有技术的适用范围。所以研究网页内容抽取技术对于自然语言技术的适用范围扩展到网页处理有着很大的意义。由于起步较晚以及中文信息处理的特殊性,中文信息抽取的水平与国外显得比较落后,主要的研究工作集中在中文命名实体识别上。20世纪90年代初期开始,国内外一些学者对中文通用命名实体识别进行了一些研究。如清华大学的孙茂松是国内最早做中文人名识别的,主要采用统计的方法计算姓氏和人名用字概率。山西大学的刘开瑛做过人名,地名等实体的识别,他采用还是有统计为主的方法。复旦大学的吴立德对中文人名,组织机构名识别进行过研究采用了基于统计的方法,
18、或者是基于规则的方法,或者是统计和规则相结合的方法,均取得了不错的效果8。但是国内在信息抽取模板自动获取方面的研究国内还是很少,但同时这又是信息抽取研究方面急待解决的一个问题9。三、WEB信息抽取算法的研究方法;91网页的解析首先要对网页进行预处理,因为网页中含有大量垃圾代码和不必要的广告信息及冗余的脚本代码。然后对经过预处理的网页提取其中的正文信息。经过这样处理后,原网页就变为了可以被包装器所识别的格式。这部分工能预期使用HTMLPARSER来实现。2抽取规则的产生包装器就是一个根据用户提供的URL地址,返回给用户需要的信息的系统。包装器的抽取规则主要根据页面的结构决定。如下例一个表结构的有
19、关产品信息的HTML文档如下CONPANYPRODUCTINFORMATIONCOMPANYPRODUCTINFORMATIONALICEMUTTON20IKGTINS3900ANISESYRUB12550MLBOTTLES1000BOSTONCRABMEAT24402TINS1840CAMARIONTIGERS16KGPKG6265CHAI10BOXES_20BAGS1800KURA12200MLJARS3100POHCOFEE16500GTINS4600END以上例子的一个典型的包装器如下EXTRACT页面P扫描碳P忽略掉的第一次出现前的字符串从页P尾部逆向扫描,直到第一次出现/得到内容主
20、体WHILE扫描内容主体若存在的下一次出现FOR每一个,抽取LK在页P中的下一次出现和随后的RK出现之间的字符串做为第K个属性的下一个值返回抽取的各个元组10在本次课题中,模仿上述方法,选取某些具有特定结构特征的页面,编写一类或几类包装器,实现对页面信息的抽取。四、参考文献1韩客松,王永成,腾伟WEB页面中文文本主题的自动提取研究情报学报,200942周顺先,林亚平,王耀南文本信息抽取模型及算法研究湖南大学出版社,20003王敬普,林亚平,周顺先,岳文基于包装器模型的文本信息抽计算机应用第26卷第3期2006,34于江德中文WEB信息提取中实体关系的研究计算机与信息技术20095庄明,老松杨,
21、吴玲达一种统计和词性相结合的命名实体发现方法J计算机应用,20046许建潮,王颖楠,胥桂仙WEB文本信息抽取与挖掘方法吉林工学院学报自然科学版2002年1期23卷7梅雪,程学旗,郭岩等一种全自动生成网页信息抽取WRAPPER的方法中文信息学报J20088李永丽,张玉良一种基于后缀树的包装器自动生成方法研究J计算机工程与应用20079蔡晓白,樊孝忠疾病命名短语识别的最大熵方法J北京理工大学学报,200610FREITAGD,MCCALLUMA,PEREIRAFMAXIMUMENTROPYMARKOVMODELSFORINFORMATIONEXTRACTIONANDSEGMENTATIONA,PR
22、OCEEDINGDOFICMLC,200011HANH,GILESC,MANAVOGLUE,ETALAUTOMATICDOCUMENTMETADATAEXTRACTIONUSINGSUPPORTVECTORMACHINESAINPROCEEDINGSOFJOINTCONFERENCEONDIGITALLIBRARIESCHOUSTONIEEEPRESS,200312SODERLANDSLEARNINGINFORMATIONEXTRACTIONRULESFORSSEMISTRUCTUREDANDFREETEXTJMACHINELEARNING199911本科毕业设计(20届)基于包装器的WEB信
23、息抽取算法实现12摘要【摘要】在网络飞速发展的今天,互联网成为人们快速获取、发布和传递信息的重要渠道,它在人们政治、经济、生活等各个方面发挥着重要的作用。互联网上存在大量的信息。人们一直在寻找一种方便、低廉的信息获取的工具,本文正是基于这种目的,试图开发一种基于包装器的WEB信息抽取技术的互联网信息获取工具,该工具能快速的帮助人们获取自己想要的信息。本论文通过对基于包装器的WEB信息抽取技术进行了描述,阐述了WEB信息抽取算法的意义,并介绍了WEB抽取算法的实现原理和研究现状,提出了目前WEB数据抽取仍然存在的问题。最后选择了一类特定网页结构的页面,应用目前主流的WEB抽取算法开发出了一套WE
24、B信息抽取工具。【关键词】互联网;信息;包装器;抽取算法13ABSTRACT【ABSTRACT】WITHTHERAPIDDEVELOPMENTOFTHENETWORKTODAY,THEINTERNETBECOMESANIMPORTANTWAYTOGET,SENDANDTRANSFERTHEINFORMATIONBECAUSEOFGETTINGSOMUCHINFORMATIONONTHEINTERNET,ITGRADUALLYTAKESANESSENTIALPARTINPOLITICAL,ECONOMICALANDOTHERASPECTSOFDAILYLIFEPEOPLEHAVEBEENTRYI
25、NGTOFINDAMORECONVENIENTANDCHEAPERACCESSTOINFORMATIONTOOLSALLTHETIMESACCORDINGTOTHISPURPOSE,THEAUTHORTRIESTODEVELOPATOOLOFINFORMATIONEXTRACTIONTECHNOLOGIESWHICHISBASEDONWEBANDTOHELPPEOPLEGETINFORMATIONMOREQUICKLYTHEAUTHORINTENDSTODESCRIBETHETECHNOLOGYOFINFORMATIONEXTRACTIONWHICHISBASEDONWEBANDBRIEFLY
26、EXPLAINEDTHESIGNIFICANCEOFWEBBASEDINFORMATIONEXTRACTIONALGORITHMWHATISMORE,THEAUTHORALSOANALYZESITSTHEORYANDPRESENTSITUATIONANDHEFINDSSOMESHORTAGESINTHISMETHODWITHAPPLYINGTHECURRENTMAINSTREAMOFWEBEXTRACTIONALGORITHM,THEAUTHOR,FINALLY,CHOOSESAKINDOFSPECIALWEBTYPEANDDEVELOPANEWSETOFTOOLSFORWEBINFORMAT
27、IONEXTRACTION【KEYWORDS】INTERNETINFORMATIONWRAPPEREXTRACTIONALGORITHM14目录摘要12ABSTRACT13目录141系统分析与研究1611课题开发背景16111国外开发现状16112国内开发现状1612课题开发的现实意义1713系统特点1714系统目标172系统开发技术简介及目前研究现状1821JAVA语言简介1822ECLIPSE简介1823WEB数据抽取技术研究现状19231WEB数据抽取方法分类1924WEB数据抽取评价指标2025WEB数据抽取存在的问题203系统概要设计2131系统结构设计21311系统流程图22312
28、设计思想2232系统功能说明2233运行环境23331软件环境23332硬件环境234系统详细设计2441包装器的相关概念2442归纳学习算法与包装器的构造2643系统简要介绍2744信息获取模块28441网址输入28442页面信息获取模块3445信息分析模块35451HTMLPARSER简介3515452信息分析的流程图36453信息分析代码375系统运行及测试结果4251测试结果4252结论44参考文献45致谢错误未定义书签。161系统分析与研究11课题开发背景信息抽取INFORMATIONEXTRACTION就是把文本里边某些特定的信息提取出来,进行结构化处理,最终以结构化的形式描述,可
29、以直接存入数据库中,供用户查询以及进一步分析利用1。例如从商品网站上提取出商品名称,商品价格,商品产地等;从文本新闻报道中提取出时间,地点,人物,事件等;从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期,这被看作是信息提取技术的初始研究12。1987年5月,消息理解会议MUC首次召开,它的目的是为信息抽取的研究提供一个分共测试平台。从此MUC会议对信息抽取的研究和发展起了巨大的推动作用。MUC定义的信息抽取任务的各种规范、确立的评价体系已经成为信息抽取研究事实上的标准。到第七届MUC会议时,信息抽取研究的内容按照不同层次可以分为五个部分命名实体识别;模板元素填充;指代消解;模
30、板关系填充;场景模板任务;MUC会议停办后,ACE会议诞生,成为推动信息抽取研究的主要动力。在2007年,ACE评测任务主要有五个实体探测与识别;特定类型数值探测与识别;时间表达式探测与识别;关系探测与识别;事件探测与识别;111国外开发现状国外对命名实现的识别已经达到了很高的水平,MUC会议的测试召回率和正确率已经达到了90左右。现在国外学者主要的研究方向是采用机器自主学习的方法进行命名实体的识别。比较完善的信息抽取系统有谢菲尔德大学的LAS1E1I系统,BBN公司的SIFT系统等,它们分别采用机器学习的方法和基于统计的方法,信息抽取结果另人满意11。信息抽取模板自动获取技术一直是信息抽取研
31、究的关键,国外已经在这方面进行了大量的研究,并获得了不错的效果。如WHISK系统采用正则表达式的形式来学习规则。CRYSTAL系统实现全自动获取规则。LIEP系统利用LOCAL句法来学习能识别各句法要素之间的联系的规则1213。112国内开发现状中文信息抽取方面的研究起步较慢,主要的研究工作集中在对中文命名实体的识别方17面。因为中文实体命名的识别和英文有很大的区别,所以在这块上中文实体的识别要比复杂得多。20世纪,国内外许多学者都尝试对中文命名实体的识别进行一些研究。如清华大学的孙茂松是国内最早做中文人名识别的,主要采用统计的方法计算姓氏和人名用字概率6。复旦大学的吴立德对中文人名组织机构名
32、识别进行过研究,他采用的是基于规则的方法,取得了不错的效果45。但是国内在信息抽取模板自动获得方面的研究还很少,同时这又是信息抽取研究急需解决的问题。12课题开发的现实意义WEB页面实体抽取系统建设的真正价值在于1操作并运行一个CS构架的WEB页面实体抽取系统,并将它引向成功的过程,这本身就是一种丰富的经验积累;2再好的想法,如果不能进行有效的组织及实施,它就会变成无意义的事情。开发这个系统的过程就是一个将想法进行实施的过程,尽管避免不了很多难题,但这些对于自身是一个非常有效的锻炼机会。13系统特点WEB页面实体抽取系统不外乎两个方面,信息的获取和分析。简单分析一下两个方面所要完成的任务,对设
33、计这个程序来说,等于完成了一半。首先来看一下信息获取的任务1系统应该能够在输入一个网址后能正确及时的获取该网址的页面信息。2系统在接受到网页信息后能正确快速的解析网页代码,获取被关注的信息。可以知道,解决上述两个问题,即完成了该WEB页面实体抽取系统的核心。14系统目标课题目标是设计并实现一个CS体系结构的WEB页面实体抽取系统。结合实践,理解JAVA应用程序开发技术的基本知识,学习相关开发工具和应用软件,熟悉JAVA应用程序开发的过程,熟练掌握网络编程方法。182系统开发技术简介及目前研究现状通过对本系统功能及应用各方面的综合分析,本系统采用ECLIPSE作为开发设计工具,在此基础上运用平时
34、所学的数据库设计知识,最终建设成可以进行网页信息抽取的系统。下面对本系统涉及到的技术进行简要的介绍。21JAVA语言简介JAVA是由SUNMICROSYSTEMS公司于1995年5月推出的JAVA程序设计语言和JAVA平台的总称。他们最初的目的只是为了开发一种独立于平台的软件技术,而且曾经一度面临夭折的危机,但是随着时代和网络的发展,JAVA语言的可移植性和可重用性使JAVA被广泛接受并推动了WEB的迅速发展,常用的浏览器现在均支持JAVA虚拟机。在互联网十分发达的今天,JAVA语言已经是应用最广泛的服务器端语言。随着物联网时代的到来,JAVA语言并不会没落,只会迎来更辉煌的未来。JAVA具有
35、以下几个优点JAVA的最显著优点就是具有非常强大的平台可移植性同样的代码可以在WINDOWS、SOLARIS、LINUX或其他操作系统上毫无障碍重复使用。JAVA的第二个优点是有和C类似的语法。一般程序员都是从C或C起步,当接触到JAVA时,便很容易就学会JAVA语法结构。另外JAVA代码的可重用性强也是它的一大特点INTERNET上流传的许多JAVA代码可以直接引用,不需要程序员重复编写,为软件开发带来不少便利。22ECLIPSE简介ECLIPSE最初是由IMB公司开发的集成开发环境,2001年贡献给开源社区,现在它由非盈利软件供应商联盟ECLIPSE基金会管理。ECLIPSE是一个著名的跨
36、平台的自由开发平台,可以通过插件来实现多种语言的开发,当然,主流的ECLIPSE是用来进行JAVA开发。ECLIPSE是一个强大并让人着迷的开发环境,它的主要特点在于它提供的核心框架和可扩展的插件机制这两种另无数程序员为之青睐。目前主流的开发语言基本上都可以通过插件在ECLIPSE上开发,可以想象ECLIPSE将成为未来的集成的桌面环境。而且,目前的ECLIPSE19本身具备的资源管理和外部程序这两个功能,加上五花八门的插件,构成了一个丰富多彩的工作环境而不仅仅是一个IDE。MYECLIPSE是ECLIPSE的插件,也是一款功能强大的J2EE集成开发环境,支持代码编写、配置、测试以及除错。23
37、WEB数据抽取技术研究现状由于WEB上的信息大多是HTML文档的形式出现,且HTML文档主要是用于浏览,而不是用于数据操作和应用的。WEB信息抽取在传统的信息提取研究的基础上,将重点放在如何将分布在INTERNET上半结构化的HTML页面中的某些特定信息抽取出来,转化为结构化的形式,存在数据库中供用户查询、分析使用1。231WEB数据抽取方法分类1、基于自然语言处理的的数据抽取方式基于自然语言处理的方式通过对文本进行分词,标记,然后与给定的语言模式匹配得到结果。具体的说就是,就是先进行句法分析,语义标注,专有对象的识别,随后与事先定制好的语言模式进行匹配,得到需要抽取的信息。语言模式可以人工编
38、制,也可以从人工标注的语料库中自动学习获得。目前采用这种原理的典型系统有RAPIER、SRV。2、基于包装器的数据抽取方式所谓的包装器实际上是可以把一类WEB页面转换到其中隐含数据的一个软件过程3。一般而言,一个包装器只能处理一种特定的WEB页面,具有相同或相似的内容和格式。要对不同类型的WEB页面进行数据抽取,就需要有不同的包装器。目前国内外对于包装器的研究主要集中在包装器抽取算法的研究和包装器WRAPPER的自动或半自动生成上。WIEN,SOFTMEALY和STALKER等著名的信息抽取系统就是采用了包装器的方法实现的。3、基于ONTOLOGY的数据抽取方式基于ONTOLOGY的方法主要依
39、赖的是一个完全的知识库对数据本身信息的描述,而对页面结构的依赖较少或者可以说没有依赖。采用该方法,事先要由领域内的知识专家采用人工的方式书写某一应用领域的ONTOLOGY,包括对象的模式信息、常值、关键字的描述信息,其中常值和关键字提供了语义项的描述信息。系统根据边界分隔符和启发信息将源文档分割为多个描述某一事物不同实例的无结构的文本块。然后系统根据ONTOLOGY中常值和关键字的描述信息产生抽取规则,对每个无结构的文本块进行抽取,获得各语义项的值。将抽取出的结果放入根据ONTOLOGY的描述信息生成的数据库中1。20该系统最大的优点是对网页结构的依赖较少,但是同时也有一个主要缺点,对事先建立
40、的完全的知识库的要求很高,人工工作量非常大。4、基于HTML结构的数据抽取方式基于HTML结构的信息抽取方式与基于ONTOLOGY方式相反,它依赖的是网页的特定结构而对人工工作的要求非常低,基本实现自动化抽取。该方法在信息抽取之前通过解析器将HTML页面文档解析成语法树,每个标签都是语法树上的一个结点,需要抽取的信息分布的语法树的树叶结点,然后通过自动或半自动的方式产生抽取规则,将信息抽取转化为对语法树的操作,从而实现信息抽取。采用这种技术的系统有很多,有LIXTO,XWRAP,以及ROADRUNNER,IEPAD,和ANDES。这些系统只适合对有明显结构特点的网页进行信息抽取,抽取的类型非常
41、有限。上述的各类数据抽取工具,其使用的原理不同,抽取规则的形式和感兴趣的信息的定位方式也各有不同,因此都不具备通用性。24WEB数据抽取评价指标MUC在衡量信息抽取系统的性能时采用的指标,与信息检索系统使用的指标类似。主要是召回率和准确率这2个指标。在数据抽取中使用的RECALL和PRECISION虽然来自于信息检索领域,但其含义却稍有不同。在数据抽取领域,查全率RECALL可以解释为被正确取抽出来的数据与应该抽取出来的全部数据的比例查准率PRECISION可以被解释为被抽取出来的数据的正确率1。查全率RECALL被正确抽取出来的信息数/WEB页面上应该抽取出来的总信息数查准率PRECISIO
42、N被正确抽取出来的信息数/被抽出来的总信息数查全率R和查准率P的取值范围都在0,1之间,10为其最大值。一般而言,R和P之间存在的反比关系,所以一个系统要达R最优时,往往要牺牲一定的P反之,P达到最优时,就会牺牲一定的R。不同的数据抽取系统对P和R的侧重有所不同,为了同时比较R和P,以便综合评价系统的性能,提出了各种综合评价指标。如,F度量FMEASURE,该指标可以计算R和P的加权几何平均值。其计算公式如下F12PR/2PR其中,为R和P的相对权重当1时,P和R同等重要当1时,P比R更重要当CONPANYPRODUCTINFORMATIONCOMPANYPRODUCTINFORMATIONA
43、LICEMUTTON20IKGTINS3900ANISESYRUB12550MLBOTTLES1000BOSTONCRABMEAT24402TINS1840CAMARIONTIGERS16KGPKG6265CHAI10BOXES_20BAGS1800KURA12200MLJARS3100POHCOFEE16500GTINS4600END所有的WEB页面其实都可以看成是一个字符串的集合。一个元组的属性值是该字符串的一个子串。一个HTML文档需要抽取的内容可以由标签矩阵表示。HTML字符串可以分段成标记组成的一个标记序列,标记可以分为HTML标记,标点符号,控制字符,数字,字符串等类型。一个元组的
44、属性值既是HTML字符串的一个子串,同时也是HTML标记序列的一个子序列。标签矩阵可以分为字符粒度标签矩阵和标记粒度标签矩阵。字符粒度标签矩阵即属性值子串在整个页面的HTML字符串中的起始索引和结束索引来定义标签矩阵14。标记粒度标签矩阵即属性值子序列在整个页面的HTML标记序列中的起始索引和结束索引来定义标签矩阵14。对应上例中WEB页面抽取内容的字符粒度标签矩阵和标记粒度标签矩阵分别为25抽取的内容可以表示为如表41PRODUCT_NAMENO_IN_UNITPRICEALICEMUTTON20LKGTINS3900ANISEEDSYRUB12550MLBOTTLES1000BOSTONC
45、RAB24402TINS1840CAMARIONTIGERS16KGPKG6265CHAI10BOXES20BAGS1800KURA12200MLJARS3100POHCOFFEE16500GTINS4600表41以上例子的一个典型的包装器如下EXTRACT页面P26扫描碳P忽略掉的第一次出现前的字符串从页P尾部逆向扫描,直到第一次出现/得到内容主体WHILE扫描内容主体若存在的下一次出现FOR每一个,抽取LK在页P中的下一次出现和随后的RK出现之间的字符串做为第K个属性的下一个值返回抽取的各个元组42归纳学习算法与包装器的构造归纳学习是机器学习最重要,最核心也是最成熟的一个分支,它主要依赖于
46、数据间的相似性。归纳学习从事物的一部分的具体观察推导出一个事物的完整的正确描述,从有限的,不完全的知识状态推导出完全的知识状态。归纳可分为完全归纳与不完全归纳。归纳学习算法有两个输入,函数ORACLE和泛化函数GENERALIZE。函数GENERALIZE用于学习指定的归纳断言类,即用于得到归纳学习的结果。给定这两个输入,归纳学习算法就可以输出归纳断言H。归纳学习是一种主动的学习算法,当学习到的目标归纳断言不能正确地标注一个新的实例时,归纳学习算法将实例和该实例的正确标签作为例子,重新学习以得到能正确标注该实例的目标归纳断言,直到所有的实例都能由目标归纳断言正确地标注14。归纳学习算法的一般形
47、式如下INDUCEORACLEH,GENERALIZEHEEEORACLEHHGENERALIZEHEWHILE存在新的未知实例I,设其标签为LIIFH不正确的标注了I,即HILIEE会计准则讲解2008“TARGET“_BLANK“企业会计准则讲解2008作者财政部会计司编写组编ISBN9787010075419出版社人民出版时间20081130简介自2007年1月1日起,我国企业会计准则和审计准则体系正式实施。上市公司等企业需执行企业会计准则体系,会计师事务所需执行审计定价800元网上特价6000元所以只要把DD标签里的内容抽取出来,我们就可以应该上述的方法把图书的相关信息抽取出来。对于D
48、D标签内容的抽取,我采用的是借助HTMLPARSE的功能,关于HTMLPARSE在以下章节会介绍。系统可以分为两个模块信息获取模块和信息分析模块。下面分别进行介绍。44信息获取模块在这一模块中,主要工作是对系统界面的设计编写。441网址输入主要是提供一个网址输入界面,并且检查是否输入错误,提示用户。检查完毕后,将取得的参数传递给信息获取模块。系统界面见图4329图43网址输入网址输入主要源代码PACKAGECOMCNUIIMPORTJAVAAWTBORDERLAYOUTIMPORTJAVAAWTCOLORIMPORTJAVAAWTDIMENSIONIMPORTJAVAAWTFONTIMPORT
49、JAVAAWTEVENTACTIONEVENTIMPORTJAVAAWTEVENTACTIONLISTENERIMPORTJAVAUTILLISTIMPORTJAVAUTILVECTORIMPORTJAVAXSWINGBOXIMPORTJAVAXSWINGJBUTTONIMPORTJAVAXSWINGJLABELIMPORTJAVAXSWINGJOPTIONPANE30IMPORTJAVAXSWINGJPANELIMPORTJAVAXSWINGJSCROLLPANEIMPORTJAVAXSWINGJTABLEIMPORTJAVAXSWINGJTEXTFIELDIMPORTJAVAXSWINGTABLEDEFAULTTABLEMODELIMPORTJAVAXSWINGTABLETABLECOLUMNMODELIMPORTCOMCNBEANINFOIMPORTCOMCNUTILUTILPUBLICCLASSLWCHEXTENDSJPANELIMPLEMENTSACTIONLISTENERVECTORCOLUMNNAMESNEWVECTORJBUTTONJBUTTON1NEWJBUTTONJPANELJPANEL7NEWJPANELJTABLEJTABLE1JLABELJ