摘要:文章阐述了web信息抽取的定义、抽取过程、Web信息抽取方法的分类,并指明了web信息抽取的应用领域和发展方向。论文关键词:web信息抽取,自然语言,包装器,web查询,抽取对象一、什么是web信息抽取Web信息抽取是指从Web页面所包含的无结构、半结构或者结构化的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式的Web页面信息抽取的过程1。二、Web信息抽取技术涉及的内容因特网提供了一个巨大的信息源。这种信息源往往是半结构化的,并且中间夹杂着结构化和自由文本。网上的信息还是动态的,包含超链接,都以不同的形式出现。? Web信息抽取的内容一般可以分为这样几个方面:命名实体的抽取、与模板有关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。信息抽取的方法主要可以分为以下两类:一类是基于层次结构的信息抽取归纳方法,另一类是基于概念模型的多记录信息抽取方法。Web信息抽取工作主要包装器(Wrapper)来完成1。包装器是一种软件过程,这个过程使用已经定义好的信息抽取规则,将网络中Web页面的信息数据