1、本科毕业设计(20届)基于包装器的WEB信息抽取算法实现所在学院专业班级计算机科学与技术学生姓名学号指导教师职称完成日期年月I摘要【摘要】在网络飞速发展的今天,互联网成为人们快速获取、发布和传递信息的重要渠道,它在人们政治、经济、生活等各个方面发挥着重要的作用。互联网上存在大量的信息。人们一直在寻找一种方便、低廉的信息获取的工具,本文正是基于这种目的,试图开发一种基于包装器的WEB信息抽取技术的互联网信息获取工具,该工具能快速的帮助人们获取自己想要的信息。本论文通过对基于包装器的WEB信息抽取技术进行了描述,阐述了WEB信息抽取算法的意义,并介绍了WEB抽取算法的实现原理和研究现状,提出了目前
2、WEB数据抽取仍然存在的问题。最后选择了一类特定网页结构的页面,应用目前主流的WEB抽取算法开发出了一套WEB信息抽取工具。【关键词】互联网;信息;包装器;抽取算法IIABSTRACT【ABSTRACT】WITHTHERAPIDDEVELOPMENTOFTHENETWORKTODAY,THEINTERNETBECOMESANIMPORTANTWAYTOGET,SENDANDTRANSFERTHEINFORMATIONBECAUSEOFGETTINGSOMUCHINFORMATIONONTHEINTERNET,ITGRADUALLYTAKESANESSENTIALPARTINPOLITICAL,
3、ECONOMICALANDOTHERASPECTSOFDAILYLIFEPEOPLEHAVEBEENTRYINGTOFINDAMORECONVENIENTANDCHEAPERACCESSTOINFORMATIONTOOLSALLTHETIMESACCORDINGTOTHISPURPOSE,THEAUTHORTRIESTODEVELOPATOOLOFINFORMATIONEXTRACTIONTECHNOLOGIESWHICHISBASEDONWEBANDTOHELPPEOPLEGETINFORMATIONMOREQUICKLYTHEAUTHORINTENDSTODESCRIBETHETECHNO
4、LOGYOFINFORMATIONEXTRACTIONWHICHISBASEDONWEBANDBRIEFLYEXPLAINEDTHESIGNIFICANCEOFWEBBASEDINFORMATIONEXTRACTIONALGORITHMWHATISMORE,THEAUTHORALSOANALYZESITSTHEORYANDPRESENTSITUATIONANDHEFINDSSOMESHORTAGESINTHISMETHODWITHAPPLYINGTHECURRENTMAINSTREAMOFWEBEXTRACTIONALGORITHM,THEAUTHOR,FINALLY,CHOOSESAKIND
5、OFSPECIALWEBTYPEANDDEVELOPANEWSETOFTOOLSFORWEBINFORMATIONEXTRACTION【KEYWORDS】INTERNETINFORMATIONWRAPPEREXTRACTIONALGORITHMIII目录摘要IABSTRACTII目录III1系统分析与研究111课题开发背景1111国外开发现状1112国内开发现状112课题开发的现实意义213系统特点214系统目标22系统开发技术简介及目前研究现状321JAVA语言简介322ECLIPSE简介323WEB数据抽取技术研究现状4231WEB数据抽取方法分类424WEB数据抽取评价指标525WEB数
6、据抽取存在的问题53系统概要设计631系统结构设计6311系统流程图6312设计思想732系统功能说明733运行环境7331软件环境8332硬件环境84系统详细设计941包装器的相关概念942归纳学习算法与包装器的构造1143系统简要介绍1244信息获取模块13441网址输入13442页面信息获取模块1845信息分析模块20451HTMLPARSER简介20452信息分析的流程图20453信息分析代码215系统运行及测试结果2651测试结果2752结论28参考文献29致谢错误未定义书签。261系统分析与研究11课题开发背景信息抽取INFORMATIONEXTRACTION就是把文本里边某些特定
7、的信息提取出来,进行结构化处理,最终以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用1。例如从商品网站上提取出商品名称,商品价格,商品产地等;从文本新闻报道中提取出时间,地点,人物,事件等;从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期,这被看作是信息提取技术的初始研究12。1987年5月,消息理解会议MUC首次召开,它的目的是为信息抽取的研究提供一个分共测试平台。从此MUC会议对信息抽取的研究和发展起了巨大的推动作用。MUC定义的信息抽取任务的各种规范、确立的评价体系已经成为信息抽取研究事实上的标准。到第七届MUC会议时,信息抽取研究的内容按照不同层
8、次可以分为五个部分命名实体识别;模板元素填充;指代消解;模板关系填充;场景模板任务;MUC会议停办后,ACE会议诞生,成为推动信息抽取研究的主要动力。在2007年,ACE评测任务主要有五个实体探测与识别;特定类型数值探测与识别;时间表达式探测与识别;关系探测与识别;事件探测与识别;111国外开发现状国外对命名实现的识别已经达到了很高的水平,MUC会议的测试召回率和正确率已经达到了90左右。现在国外学者主要的研究方向是采用机器自主学习的方法进行命名实体的识别。比较完善的信息抽取系统有谢菲尔德大学的LAS1E1I系统,BBN公司的SIFT系统等,它们分别采用机器学习的方法和基于统计的方法,信息抽取
9、结果另人满意11。信息抽取模板自动获取技术一直是信息抽取研究的关键,国外已经在这方面进行了大量的研究,并获得了不错的效果。如WHISK系统采用正则表达式的形式来学习规则。CRYSTAL系统实现全自动获取规则。LIEP系统利用LOCAL句法来学习能识别各句法要素之间的联系的规则1213。112国内开发现状中文信息抽取方面的研究起步较慢,主要的研究工作集中在对中文命名实体的识别方面。因为中文实体命名的识别和英文有很大的区别,所以在这块上中文实体的识别要比复杂得多。2620世纪,国内外许多学者都尝试对中文命名实体的识别进行一些研究。如清华大学的孙茂松是国内最早做中文人名识别的,主要采用统计的方法计算
10、姓氏和人名用字概率6。复旦大学的吴立德对中文人名组织机构名识别进行过研究,他采用的是基于规则的方法,取得了不错的效果45。但是国内在信息抽取模板自动获得方面的研究还很少,同时这又是信息抽取研究急需解决的问题。12课题开发的现实意义WEB页面实体抽取系统建设的真正价值在于1操作并运行一个CS构架的WEB页面实体抽取系统,并将它引向成功的过程,这本身就是一种丰富的经验积累;2再好的想法,如果不能进行有效的组织及实施,它就会变成无意义的事情。开发这个系统的过程就是一个将想法进行实施的过程,尽管避免不了很多难题,但这些对于自身是一个非常有效的锻炼机会。13系统特点WEB页面实体抽取系统不外乎两个方面,
11、信息的获取和分析。简单分析一下两个方面所要完成的任务,对设计这个程序来说,等于完成了一半。首先来看一下信息获取的任务1系统应该能够在输入一个网址后能正确及时的获取该网址的页面信息。2系统在接受到网页信息后能正确快速的解析网页代码,获取被关注的信息。可以知道,解决上述两个问题,即完成了该WEB页面实体抽取系统的核心。14系统目标课题目标是设计并实现一个CS体系结构的WEB页面实体抽取系统。结合实践,理解JAVA应用程序开发技术的基本知识,学习相关开发工具和应用软件,熟悉JAVA应用程序开发的过程,熟练掌握网络编程方法。262系统开发技术简介及目前研究现状通过对本系统功能及应用各方面的综合分析,本
12、系统采用ECLIPSE作为开发设计工具,在此基础上运用平时所学的数据库设计知识,最终建设成可以进行网页信息抽取的系统。下面对本系统涉及到的技术进行简要的介绍。21JAVA语言简介JAVA是由SUNMICROSYSTEMS公司于1995年5月推出的JAVA程序设计语言和JAVA平台的总称。他们最初的目的只是为了开发一种独立于平台的软件技术,而且曾经一度面临夭折的危机,但是随着时代和网络的发展,JAVA语言的可移植性和可重用性使JAVA被广泛接受并推动了WEB的迅速发展,常用的浏览器现在均支持JAVA虚拟机。在互联网十分发达的今天,JAVA语言已经是应用最广泛的服务器端语言。随着物联网时代的到来,
13、JAVA语言并不会没落,只会迎来更辉煌的未来。JAVA具有以下几个优点JAVA的最显著优点就是具有非常强大的平台可移植性同样的代码可以在WINDOWS、SOLARIS、LINUX或其他操作系统上毫无障碍重复使用。JAVA的第二个优点是有和C类似的语法。一般程序员都是从C或C起步,当接触到JAVA时,便很容易就学会JAVA语法结构。另外JAVA代码的可重用性强也是它的一大特点INTERNET上流传的许多JAVA代码可以直接引用,不需要程序员重复编写,为软件开发带来不少便利。22ECLIPSE简介ECLIPSE最初是由IMB公司开发的集成开发环境,2001年贡献给开源社区,现在它由非盈利软件供应商
14、联盟ECLIPSE基金会管理。ECLIPSE是一个著名的跨平台的自由开发平台,可以通过插件来实现多种语言的开发,当然,主流的ECLIPSE是用来进行JAVA开发。ECLIPSE是一个强大并让人着迷的开发环境,它的主要特点在于它提供的核心框架和可扩展的插件机制这两种另无数程序员为之青睐。目前主流的开发语言基本上都可以通过插件在ECLIPSE上开发,可以想象ECLIPSE将成为未来的集成的桌面环境。而且,目前的ECLIPSE本身具备的资源管理和外部程序这两个功能,加上五花八门的插件,构成了一个丰富多彩的工作环境而不仅仅是一个IDE。MYECLIPSE是ECLIPSE的插件,也是一款功能强大的J2E
15、E集成开发环境,支持代码编写、配置、26测试以及除错。23WEB数据抽取技术研究现状由于WEB上的信息大多是HTML文档的形式出现,且HTML文档主要是用于浏览,而不是用于数据操作和应用的。WEB信息抽取在传统的信息提取研究的基础上,将重点放在如何将分布在INTERNET上半结构化的HTML页面中的某些特定信息抽取出来,转化为结构化的形式,存在数据库中供用户查询、分析使用1。231WEB数据抽取方法分类1、基于自然语言处理的的数据抽取方式基于自然语言处理的方式通过对文本进行分词,标记,然后与给定的语言模式匹配得到结果。具体的说就是,就是先进行句法分析,语义标注,专有对象的识别,随后与事先定制好
16、的语言模式进行匹配,得到需要抽取的信息。语言模式可以人工编制,也可以从人工标注的语料库中自动学习获得。目前采用这种原理的典型系统有RAPIER、SRV。2、基于包装器的数据抽取方式所谓的包装器实际上是可以把一类WEB页面转换到其中隐含数据的一个软件过程3。一般而言,一个包装器只能处理一种特定的WEB页面,具有相同或相似的内容和格式。要对不同类型的WEB页面进行数据抽取,就需要有不同的包装器。目前国内外对于包装器的研究主要集中在包装器抽取算法的研究和包装器WRAPPER的自动或半自动生成上。WIEN,SOFTMEALY和STALKER等著名的信息抽取系统就是采用了包装器的方法实现的。3、基于ON
17、TOLOGY的数据抽取方式基于ONTOLOGY的方法主要依赖的是一个完全的知识库对数据本身信息的描述,而对页面结构的依赖较少或者可以说没有依赖。采用该方法,事先要由领域内的知识专家采用人工的方式书写某一应用领域的ONTOLOGY,包括对象的模式信息、常值、关键字的描述信息,其中常值和关键字提供了语义项的描述信息。系统根据边界分隔符和启发信息将源文档分割为多个描述某一事物不同实例的无结构的文本块。然后系统根据ONTOLOGY中常值和关键字的描述信息产生抽取规则,对每个无结构的文本块进行抽取,获得各语义项的值。将抽取出的结果放入根据ONTOLOGY的描述信息生成的数据库中1。该系统最大的优点是对网
18、页结构的依赖较少,但是同时也有一个主要缺点,对事先建立的完全的知识库的要求很高,人工工作量非常大。4、基于HTML结构的数据抽取方式基于HTML结构的信息抽取方式与基于ONTOLOGY方式相反,它依赖的是网页的特定结构而对人工26工作的要求非常低,基本实现自动化抽取。该方法在信息抽取之前通过解析器将HTML页面文档解析成语法树,每个标签都是语法树上的一个结点,需要抽取的信息分布的语法树的树叶结点,然后通过自动或半自动的方式产生抽取规则,将信息抽取转化为对语法树的操作,从而实现信息抽取。采用这种技术的系统有很多,有LIXTO,XWRAP,以及ROADRUNNER,IEPAD,和ANDES。这些系
19、统只适合对有明显结构特点的网页进行信息抽取,抽取的类型非常有限。上述的各类数据抽取工具,其使用的原理不同,抽取规则的形式和感兴趣的信息的定位方式也各有不同,因此都不具备通用性。24WEB数据抽取评价指标MUC在衡量信息抽取系统的性能时采用的指标,与信息检索系统使用的指标类似。主要是召回率和准确率这2个指标。在数据抽取中使用的RECALL和PRECISION虽然来自于信息检索领域,但其含义却稍有不同。在数据抽取领域,查全率RECALL可以解释为被正确取抽出来的数据与应该抽取出来的全部数据的比例查准率PRECISION可以被解释为被抽取出来的数据的正确率1。查全率RECALL被正确抽取出来的信息数
20、/WEB页面上应该抽取出来的总信息数查准率PRECISION被正确抽取出来的信息数/被抽出来的总信息数查全率R和查准率P的取值范围都在0,1之间,10为其最大值。一般而言,R和P之间存在的反比关系,所以一个系统要达R最优时,往往要牺牲一定的P反之,P达到最优时,就会牺牲一定的R。不同的数据抽取系统对P和R的侧重有所不同,为了同时比较R和P,以便综合评价系统的性能,提出了各种综合评价指标。如,F度量FMEASURE,该指标可以计算R和P的加权几何平均值。其计算公式如下F12PR/2PR其中,为R和P的相对权重当1时,P和R同等重要当1时,P比R更重要当CONPANYPRODUCTINFORMAT
21、IONCOMPANYPRODUCTINFORMATIONALICEMUTTON20IKGTINS3900ANISESYRUB12550MLBOTTLES1000BOSTONCRABMEAT24402TINS1840CAMARIONTIGERS16KGPKG6265CHAI10BOXES_20BAGS1800KURA12200MLJARS3100POHCOFEE16500GTINS4600END所有的WEB页面其实都可以看成是一个字符串的集合。一个元组的属性值是该字符串的一个子串。一个HTML文档需要抽取的内容可以由标签矩阵表示。HTML字符串可以分段成标记组成的一个标记序列,标记可以分为HTM
22、L标记,标点符号,控制字符,数字,字符串等类型。一个元组的属性值既是HTML字符串的一个子串,同时也是HTML标记序列的一个子序列。标签矩阵可以分为字符粒度标签矩阵和标记粒度标签矩阵。字符粒度标签矩阵即属性值子串在整个页面的HTML字符串中的起始索引和结束索引来定义标签矩阵14。标记粒度标签矩阵即属性值子序列在整个页面的HTML标记序列中的起始索引和结束索引来定义标签矩阵14。对应上例中WEB页面抽取内容的字符粒度标签矩阵和标记粒度标签矩阵分别为26抽取的内容可以表示为如表41PRODUCT_NAMENO_IN_UNITPRICEALICEMUTTON20LKGTINS3900ANISEEDS
23、YRUB12550MLBOTTLES1000BOSTONCRAB24402TINS1840CAMARIONTIGERS16KGPKG6265CHAI10BOXES20BAGS1800KURA12200MLJARS3100POHCOFFEE16500GTINS4600表41以上例子的一个典型的包装器如下EXTRACT页面P扫描碳P忽略掉的第一次出现前的字符串从页P尾部逆向扫描,直到第一次出现/得到内容主体WHILE扫描内容主体若存在的下一次出现26FOR每一个,抽取LK在页P中的下一次出现和随后的RK出现之间的字符串做为第K个属性的下一个值返回抽取的各个元组42归纳学习算法与包装器的构造归纳学习
24、是机器学习最重要,最核心也是最成熟的一个分支,它主要依赖于数据间的相似性。归纳学习从事物的一部分的具体观察推导出一个事物的完整的正确描述,从有限的,不完全的知识状态推导出完全的知识状态。归纳可分为完全归纳与不完全归纳。归纳学习算法有两个输入,函数ORACLE和泛化函数GENERALIZE。函数GENERALIZE用于学习指定的归纳断言类,即用于得到归纳学习的结果。给定这两个输入,归纳学习算法就可以输出归纳断言H。归纳学习是一种主动的学习算法,当学习到的目标归纳断言不能正确地标注一个新的实例时,归纳学习算法将实例和该实例的正确标签作为例子,重新学习以得到能正确标注该实例的目标归纳断言,直到所有的
25、实例都能由目标归纳断言正确地标注14。归纳学习算法的一般形式如下INDUCEORACLEH,GENERALIZEHEEEORACLEHHGENERALIZEHEWHILE存在新的未知实例I,设其标签为LIIFH不正确的标注了I,即HILIEE会计准则讲解2008“TARGET“_BLANK“企业会计准则讲解2008作者财政部会计司编写组编ISBN9787010075419出版社人民出版时间20081130简介自2007年1月1日起,我国企业会计准则和审计准则体系正式实施。上市公司等企业需执行企业会计准则体系,会计师事务所需执行审26计定价800元网上特价6000元所以只要把DD标签里的内容抽取
26、出来,我们就可以应该上述的方法把图书的相关信息抽取出来。对于DD标签内容的抽取,我采用的是借助HTMLPARSE的功能,关于HTMLPARSE在以下章节会介绍。系统可以分为两个模块信息获取模块和信息分析模块。下面分别进行介绍。44信息获取模块在这一模块中,主要工作是对系统界面的设计编写。441网址输入主要是提供一个网址输入界面,并且检查是否输入错误,提示用户。检查完毕后,将取得的参数传递给信息获取模块。系统界面见图43图43网址输入网址输入主要源代码PACKAGECOMCNUI26IMPORTJAVAAWTBORDERLAYOUTIMPORTJAVAAWTCOLORIMPORTJAVAAWTD
27、IMENSIONIMPORTJAVAAWTFONTIMPORTJAVAAWTEVENTACTIONEVENTIMPORTJAVAAWTEVENTACTIONLISTENERIMPORTJAVAUTILLISTIMPORTJAVAUTILVECTORIMPORTJAVAXSWINGBOXIMPORTJAVAXSWINGJBUTTONIMPORTJAVAXSWINGJLABELIMPORTJAVAXSWINGJOPTIONPANEIMPORTJAVAXSWINGJPANELIMPORTJAVAXSWINGJSCROLLPANEIMPORTJAVAXSWINGJTABLEIMPORTJAVAXSWI
28、NGJTEXTFIELDIMPORTJAVAXSWINGTABLEDEFAULTTABLEMODELIMPORTJAVAXSWINGTABLETABLECOLUMNMODELIMPORTCOMCNBEANINFOIMPORTCOMCNUTILUTILPUBLICCLASSLWCHEXTENDSJPANELIMPLEMENTSACTIONLISTENERVECTORCOLUMNNAMESNEWVECTORJBUTTONJBUTTON1NEWJBUTTONJPANELJPANEL7NEWJPANELJTABLEJTABLE126JLABELJLABEL1NEWJLABELJTEXTFIELDJTE
29、XTFIELD1NEWJTEXTFIELDPUBLICLWCHCOLUMNNAMESADD“书名“COLUMNNAMESADD“作者“COLUMNNAMESADD“出版社“COLUMNNAMESADD“ISBN“COLUMNNAMESADD“定价元“JTABLE1NEWJTABLENULL,COLUMNNAMESJSCROLLPANEPANE3NEWJSCROLLPANEJTABLE1JPANEL7ADDPANE3,JAVAAWTBORDERLAYOUTCENTERSETTABLE1BOXBOX0BOXCREATEHORIZONTALBOXBOX0ADDJPANEL7JBUTTON1SETTE
30、XT“查询“JBUTTON1ADDACTIONLISTENERTHISJLABEL1SETTEXT“请输入网址“JLABEL1SETFONTNEWJAVAAWTFONT“宋体“,FONTPLAIN,14JTEXTFIELD1SETTOOLTIPTEXT“JTEXTFIELD1SETSELECTIONEND10JTEXTFIELD1SETSELECTIONSTART10JTEXTFIELD1SETCOLUMNS30JTEXTFIELD1SETSCROLLOFFSET10BOXBOX6BOXCREATEHORIZONTALBOXBOX6ADDJLABEL1BOX6ADDJTEXTFIELD1BOX
31、6ADDJBUTTON126BOXBOXHBOXCREATEVERTICALBOXBOXHADDBOX6BOXHADDBOX0ADDBOXH,BORDERLAYOUTCENTERVALIDATESETVISIBLETRUE/事件处理PUBLICVOIDACTIONPERFORMEDACTIONEVENTESTRINGURLJTEXTFIELD1GETTEXTIFURLTRIMEQUALSIGNORECASE“JOPTIONPANESHOWMESSAGEDIALOGTHIS,“请输入要抽取信息的网址“,“消息“,JOPTIONPANECLOSED_OPTIONELSELISTLISTNULLIF
32、URLTRIMSPLIT“BOOKMALL/NEWSHOUFALA“LENGTH1LISTUTILGETINFOLISTSFURLELSELISTUTILGETINFOLISTURLVECTORDATANEWVECTORFORINTI0ILISTNULLPUBLICSTATICLISTGETINFOLISTSTRINGURLLISTINFONEWARRAYLISTTRY/获取书刊相关数据NODEFILTERFILTERNEWTAGNAMEFILTER“DD“PARSERPARSERNEWPARSERPARSERSETURLURLPARSERSETENCODINGPARSERGETENCODIN
33、GNODELISTLISTPARSEREXTRACTALLNODESTHATMATCHFILTERINTJ0INFOINFNEWINFO/循环遍历所有获得的书刊数据,找出需要的数据FORINTI0I“LENGTH1STRINGSTRLISTELEMENTATITOHTMLSPLIT“TARGET“_BLANK“126STRSTRSPLIT“0STRINGSTR1STRREPLACE“,“STRINGSTR2STR1REPLACE“,“INFSETSMSTR2JELSEIFLISTELEMENTATITOHTMLSPLIT“作者“LENGTH1/检测是否是书刊对应的作者名称和出版社STRINGS
34、TRLISTELEMENTATITOHTMLSPLIT“作者“1STRINGSTRZZSTRSPLIT“0INFSETZZSTRZZSTRINGSTRCBSSTRSPLIT“出版社“1STRINGSTRCBSMSTRCBSSPLIT“0INFSETCBSSTRCBSM“出版社“/检测是否是书刊对应的ISBNSTRINGSTRIBSNLISTELEMENTATITOHTMLSPLIT“ISBN“1STRIBSNSTRIBSNSPLIT“0INFSETISBNSTRIBSNJELSEIFLISTELEMENTATITOHTMLSPLIT“定价“LENGTH1/检测是否是书刊对应的价格STRINGS
35、TRLISTELEMENTATITOHTMLSPLIT“定价“1STRSTRSPLIT“元“0INFSETDJSTR“元“JIFJ326/将检测的数据添加到列表INFOADDINFJ0CATCHEXCEPTIONEEPRINTSTACKTRACE/返回成功抽取出来的书刊信息RETURNINFOPUBLICSTATICLISTGETINFOLISTSFSTRINGURLLISTINFONEWARRAYLISTTRY/获取书刊相关数据NODEFILTERFILTERNEWTAGNAMEFILTER“UL“PARSERPARSERNEWPARSERPARSERSETURLURLPARSERSETEN
36、CODINGPARSERGETENCODINGNODELISTLISTPARSEREXTRACTALLNODESTHATMATCHFILTER/循环遍历所有获得的书刊数据,找出需要的数据FORINTI0I1INFOINFNEWINFOTRYSTRINGSTRLISTELEMENTATITOHTMLSPLIT“0INFSETSMSTR26CATCHEXCEPTIONETRYSTRINGSTRZLISTELEMENTATITOHTMLSPLIT“作者“1STRINGSTRZZSTRZSPLIT“0INFSETZZSTRZZCATCHEXCEPTIONETRYSTRINGSTRCBSLISTELEM
37、ENTATITOHTMLSPLIT“出版社“1STRINGSTRCBSMSTRCBSSPLIT“0INFSETCBSSTRCBSM“出版社“CATCHEXCEPTIONETRYSTRINGSTRDJLISTELEMENTATITOHTMLSPLIT“定价“1STRDJSTRDJSPLIT“元“0INFSETDJSTRDJ“元“CATCHEXCEPTIONEINFOADDINFCATCHEXCEPTIONEEPRINTSTACKTRACETRY/获取书刊相关数据NODEFILTERFILTERNEWTAGNAMEFILTER“DL“PARSERPARSERNEWPARSERPARSERSETUR
38、LURLPARSERSETENCODINGPARSERGETENCODING26NODELISTLISTPARSEREXTRACTALLNODESTHATMATCHFILTER/循环遍历所有获得的书刊数据,找出需要的数据FORINTI0I1INFOINFNEWINFOTRYSTRINGSTRLISTELEMENTATITOHTMLSPLIT“TITLE“1STRSTRSPLIT“0INFSETSMSTRCATCHEXCEPTIONETRYSTRINGSTRDJLISTELEMENTATITOHTMLSPLIT“定价“1STRDJSTRDJSPLIT“元“0INFSETDJSTRDJ“元“CAT
39、CHEXCEPTIONEINFOADDINFCATCHEXCEPTIONEEPRINTSTACKTRACE/返回成功抽取出来的书刊信息RETURNINFO5系统运行及测试结果2651测试结果程序完成后,经过测试,基本上能够实现对特定网页内的信息进行抽取,并以列表的形式返回给用户。图51特定页面对其中的图书信息可以进行抽取,得到结果见图5226图52抽取结果对比可以知道,系统基本上正确地抽取了其中需要的图书信息。52结论本论文讨论了如何利用JAVA技术开发WEB页面实体抽取系统。系统着重研究并实现了信息获取与分析的部分。根据实现的情况看,能够正确并及时的获取相应信息效果。基本满足了结构化、界面友
40、好、速度快、安全性以及稳定性等特点。通过本次毕业设计,提高了本人的学习能力和解决问题的能力、培养了本人的合作精神、大大丰富了本人在软件开发上的经验。由于时间短,任务重,加上本人能力有限,许多设想还未能体现,在今后工作之余,本人会尽力付之实践,使其尽善尽美。26参考文献1王鸿伟WEB信息抽取技术综述中国科技财富报,20092周顺先,林亚平,王耀南文本信息抽取模型及算法研究湖南大学出版社,20003王敬普,林亚平,周顺先,岳文基于包装器模型的文本信息抽计算机应用第26卷第3期2006,34于江德中文WEB信息提取中实体关系的研究计算机与信息技术20095庄明,老松杨,吴玲达一种统计和词性相结合的命
41、名实体发现方法J计算机应用,20046刘杰WEB中文信息抽取中命名实体识别的研究及应用学位论文西北大学,20097李昌清基于WEB的电子期刊信息抽取研究学位论文河南科技大学,20088游镇WEB页面分块算法MDSPS及其在WEB信息抽取中的应用学位论文东北大学,20069张大宇IPV6无线网络管理系统委托代理(PROXYAGENT)技术的研究与实现学位论文北京邮电大学,200510韩客松,王永成,腾伟WEB页面中文文本主题的自动提取研究情报学报,2009411FREITAGD,MCCALLUMA,PEREIRAFMAXIMUMENTROPYMARKOVMODELSFORINFORMATIONE
42、XTRACTIONANDSEGMENTATIONA,PROCEEDINGDOFICMLC,200012HANH,GILESC,MANAVOGLUE,ETALAUTOMATICDOCUMENTMETADATAEXTRACTIONUSINGSUPPORTVECTORMACHINESAINPROCEEDINGSOFJOINTCONFERENCEONDIGITALLIBRARIESCHOUSTONIEEEPRESS,200313SODERLANDSLEARNINGINFORMATIONEXTRACTIONRULESFORSSEMISTRUCTUREDANDFREETEXTJMACHINELEARNING199914邓擘信息抽取关键技术研究学位论文北京理工大学,20069