一种数据驱动的Wrapper自动生成与维护方法.PPT

上传人:国*** 文档编号:368733 上传时间:2018-09-28 格式:PPT 页数:31 大小:1.88MB
下载 相关 举报
一种数据驱动的Wrapper自动生成与维护方法.PPT_第1页
第1页 / 共31页
一种数据驱动的Wrapper自动生成与维护方法.PPT_第2页
第2页 / 共31页
一种数据驱动的Wrapper自动生成与维护方法.PPT_第3页
第3页 / 共31页
一种数据驱动的Wrapper自动生成与维护方法.PPT_第4页
第4页 / 共31页
一种数据驱动的Wrapper自动生成与维护方法.PPT_第5页
第5页 / 共31页
点击查看更多>>
资源描述

1、一种数据驱动的Wrapper自动生成与维护方法,王仲远 艾静 孟小峰中国人民大学WAMDM实验室http:/,2,大纲,背景介绍&研究动机数据驱动的Wrapper自动生成与维护方法实验总结系统介绍,3,Deep Web 介绍,World Wide WebCIDR07目前可访问的网页超过550 billion目前主流搜索引擎只索引了超过1billion的页面Web的划分(按照数据“深浅”程度)Surface Web -通过超链接可以被传统搜索引擎索引到的页面的集合。 Deep Web -无法被传统的搜索引擎索引到的那部分内容。,4,Deep Web的主要特点,规模2001年7月BrightP:W

2、eb数据库的数量超过4万个2004年UIUC统计:Web数据库超过45万个2007年CIDR:Web数据库超过2500万个是Surface Web的500多倍结构化程度 75%主题分布覆盖了现实世界的各个主题(商业、新闻媒体、娱乐 )自治性和异质性,5,研究动机,原有的数据抽取方法基于DOM树分析Y. Zhai, B. Liu. Web data extraction based on partial tree alignment. In: WWW, 2005. 76-85.D. Hu and X. Meng: Automatically extracting data from data-r

3、ich web pages. In: DASFAA 2005, pages828-839, Beijing, China, April 17-20, 2005. Lecture Notes in Computer Science 3453, Springer. 基于视觉的抽取H. Zhao, W. Meng, Z. Wu, V. Raghavan, C. T. Yu. Fully automatic wrapper generation for search engines. In WWW, pages 66-75, 2005.K. Simon, G. Lausen. ViPER: Augme

4、nting Automatic Information Extraction with Visual Perceptions. In CIKM, pages 381-388, 2005.W. liu, X. Meng, W. Meng. Vision-based Web Data Records Extraction. In: Proceedings of the 9th SIGMOD International Workshop on Web and Databases (SIGMOD-WebDB2006), June 30, 2006,6,原有抽取方法的缺陷(1),SL05 K. Simo

5、n, G. Lausen. ViPER: Augmenting Automatic Information Extraction with Visual Perceptions. In CIKM, pages 381-388, 2005.ViNTs(MDR-2)CH07 S.-L. Chuang, K. C.-C. Chang, and C. Zhai. Context-Aware Wrapping: Synchronized Data Extraction. In: VLDB 2007. 699-710,领域,方法,7,原有抽取方法的缺陷(2),特征驱动的方法:严重依赖于网页的结构及特征准确

6、率波动现象,准确率,不同的领域/不同的页面集合,(失效),(较好),(较差),(一般),8,大纲,背景介绍&研究动机数据驱动的Wrapper自动生成与维护方法实验总结系统介绍,9,Deep Web查询结果页面,查询结果列表(list page)查询结果记录的详细页面(detailed page),10,两个观察,在一系列的匹配页面对上:(1) 若语义块匹配,则源语义块上的数据值与目标语义块上的数据值大部分具有较高相似度值;(2) 若语义块不匹配,源语义块上的数据值与目标语义块上的数据值大部分具有较低的相似度值.,非常重要!,11,不同网站同一时期的页面,(a)当当网上的页面,(b)卓越网上的页

7、面,数据驱动的Wrapper生成,12,同一网站不同时期的页面,(a)当当网改版前页面(2006),(b)当当网改版后页面(2008),数据驱动的Wrapper维护,13,Wrapper生成与维护过程,Wrapper生成扩散Wrapper维护,可以利用现有的方法先生成一个高精准的Wrapper,14,基于XPath的Schema-Guided数据抽取方法,XHTML页面,Schema-Guided抽取规则,15,基于相似度值的语义块匹配,源语义块组,目标语义块组,求得目标数据块的XPath,16,语义块相似度值的迭代计算,17,大纲,背景介绍&研究动机数据驱动的Wrapper自动生成与维护方法

8、实验总结系统介绍,18,在不同领域上的有效性实验,表1 图书领域的Wrapper生成验证(种子点:卓越网),表2 计算机领域的Wrapper生成验证(种子点:比特网),表3 音乐领域的Wrapper生成验证(种子点:一听音乐网),表4 电影领域的Wrapper生成验证(种子点:IMDB中文网),表5 4个领域的Wrapper实验结果统计,19,在不同领域上的有效性实验(2),20,语义块匹配的收敛速度,0 5 10 15,10007505002500,目标语义块,源语义块(1)5个匹配页面对,21,语义块匹配的收敛速度,0 5 10 15,10007505002500,目标语义块,源语义块(2

9、)10个匹配页面对,22,语义块匹配的收敛速度,0 5 10 15,10007505002500,目标语义块,源语义块(3)15个匹配页面对,23,语义块匹配的收敛速度,0 5 10 15,目标语义块,源语义块(4)20个匹配页面对,10007505002500,24,大纲,背景介绍&研究动机数据驱动的Wrapper自动生成与维护方法实验总结系统介绍,25,总结,不同于以往工作使用结构或特征分析页面(特征驱动),进而产生Wrapper的方法,本文创新性地提出数据驱动的Wrapper导出方法。本文提出的方法,将Wrapper的生成与维护过程统一起来。本文提出的数据驱动方法,无需设置参数及阀值。相

10、对于先前方法,具有更广泛的适用性,并能达到较好的集成效果。,26,大纲,背景介绍&研究动机数据驱动的Wrapper自动生成与维护方法实验总结系统介绍,27,系统介绍,工作通:工作信息集成系统网址:http:/ 图书价格比较网:图书领域的信息集成及价格比较系统网址:http:/ http:/ )已收录计算机领域的以下9本权威中文期刊和1个学术会议的数据,(1)软件学报1990-2008年(2)计算机学报1978-2008年(3)计算机研究与发展1960-2008年(4)计算机工程1975-2008年(5)中国图形图象学报1996-2008年,(6)中文信息学报1986-2008年(7)计算机科学1979-2008年(8)小型微型计算机系统1980-2008年(9)计算机科学与探索2007-2008年(10)NDBC 2000年-2007年论文集的数据,29,以作者为中心的结果展示方式,参考文献的展示方式,30,挖出来“晒晒”,谢谢Q&A,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。