1、面向大数据的 Deep Web 数据系统关键技术研究摘要:由于数据产生成本的急速下降,人类社会产生的数据不仅以指数级别增长,而且数据的结构变得日趋复杂,使得传统的数据分析技术遇到了极大的挑战。如何对大量复杂数据进行分析和挖掘,从中提取有价值的知识用于决策,已经成为产业界和学术界的广泛关注问题,在一些国家已上升到国家战略层面。本文介绍了大数据的基本概念、特征和面临的科学问题,总结了“Deep Web”课题的一些先期成果,为开发大数据管理、分析和挖掘系统提供一些参考依据。 关键词:大数据;Deep Web;系统;技术研究 中图分类号:TJ768.4 文献标识码:A 文章编号: 引言 在全球经济的很
2、多领域,大数据在以很多方式创造价值。随着各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大浪潮的尖峰,这个浪潮,就是大数据驱动的创新、生产效率提高、经济增长以及新的竞争形式和新的价值的产生。 1.大数据 指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 1.1 大数据的特点,业界通常用 4 个“V” Volume,Variety,Value,Velocity。或者说特点有四个层面:第一,数据体量巨大。从 TB 级别,跃升到 PB 级别;第二,数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三,价值密
3、度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1 秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。 1.1.1 数据体量巨大。从 TB 跃升到 PB 至 EB 级别。要知道目前的数据量有 多大,我们先来看看一组公式。1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=YB。到目前为止,人类生产的所有印刷材料的数据量是 200PB,而历史上全人类说过的所有的话的数据量大约是 5EB。 1.1.2 数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主
4、的结构化数据,越来越多的非结构化数据的产生给所有厂商都提出了挑战。拜互联网和通信技术近年来迅猛发展所赐,如今的数据类型早已不是单一的文本形式,除了网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求。 1.1.3 价值密度低。价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题。 1.1.4 处理速度快。这是大数据区分于传统数据挖掘最显著的特征。根据 IDC 的一份名为“数字宇宙”的报告,预计到 202
5、0 年全球数据使用量将会达到 35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。 2.大数据的价值 2.1 现在有很多通过大数据分析受益的经典案例。美国的海啸预警系统一直为人们津津乐道,2011.3.11 日本大地震发生后仅 9 分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型便出现在 YouTube 等网站。大数据分析在指导人们有效规避自然灾害面前发挥了很大的作用. 2.2 在商业领域,eBay 则很好地起到了示范作用。eBay 定义了超过 500 种类型的数据,对顾客的行为进行跟
6、踪分析,每天处理的数据量高达 100PB,通过准确分析用户的购物行为,达到了减少广告投入、稳定高端卖家、实现持续增长的目的。 通过案例可知,大数据分析的价值非常大。企业用来分析的数据越全面,分析的结果就越接近于真实,因此,大数据具有很大的商业价值。 3.数据到大数据 “大数据”与我们通常所说的“数据”有显著的不同。伴随着传统的商业智能系统向纵深应用的拓展,商业决策已经越来越依赖于数据。一般,企业的数据分 3 种类型:结构化数据、半结构化数据和非结构化数据。其中,85%的数据属于广泛存在于物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和
7、技术的不断涌现和应用。企业用以分析的数据越全面,分析的结果就越接近于真实。 4.Web 数据库集成的研究现状 Web 数据库作为一种重要的 Deep Web 资源,其中包含了大量可供访问的数据信息。这些数据信息具有良好的结构化特征且指向特定领域的数据记录,因此能够为科学研究和系统应用提供更高质量的数据服务。以下是“Deep Web”课题的一些先期成果,可以为开发大数据管理分析和挖掘系统提供一些参考依据。Web 数据库集成中针对 Web 数据库集成框架的结构模型,Web 数据库集成中的若干关键技术提出了新颖、有效的解决方法,主要工作包括以下几点: 4.1 提出了一种基于元搜索模式的 Web 数据
8、库集成框架。Web 数据库集成框架的目的是为用户统一访问 Web 数据库资源提供支持。基于元搜索模式的 Web 数据库集成框架,能够透明的访问和及时的更新数据,并具有较低的系统运行代价。本文分析了实现 Web 数据库集成框架中所需的关键技术,将框架分为离线的 Web 数据库搜索模块和在线的查询处理模块。前者是从 Web 中发现特定领域 Web 数据库的查询接口,抽取其模式信息并对其进行分类;后者的目的是实现对 Web 数据库即时访问,抽取并标注查询结果记录,并将集成后的结果数据集返回给用户。 4.2 提出了基于实例的查询结果模式抽取方法。完整的模式信息对于数据集成有着至关重要的作用。对于 We
9、b 数据库而言,查询接口模式决定其功能,而查询结果模式描述了其中的数据内容。现有的研究工作往往只关注于查询接口模式而忽略了查询结果模式。本文给出了基于标签的查询接口模式属性识别方法。在此基础上,提出了基于近似查询和精确查询的两段式模式匹配模型。通过在结果页面的 DOM 树中匹配查询关键字,并利用查询结果记录在页面中连续出现的特征识别模式属性。同时提出基于属性共现度的匹配方法提高模式属性的查全率和查准率。 4.3 提出了面向内容的 Web 数据库分类方法。现有基于领域的 Web 数据库分类方法已难以满足应用需求。为此,本文提出将领域中记录基于其内容划分为多个主题分类。主要解决方案为:使用主题分类
10、中的样本实例对 Web 数据库查询探测,并基于查询返回的结果数量构建查询结果矩阵,该矩阵能够准确地反映出主题分类与 Web 数据库内容之间的匹配关系;基于矩阵内容得到主题分类。基于内容的分类结果能够为查询更准确地匹配 Web 数据库。 4.4 提出了一种有效的查询结果记录抽取技术。为避免对大量页面内容的语义匹配,有效地保证数据抽取的执行效率,本文首先基于 URL 匹配的方法准确的确定要抓取查询结果页面;之后利用查询结果模式抽取中识别出的模式属性路径定位查询结果记录,并实现查询结果记录的抽取与标注。基于属性路径构建的包装器能有效的改善连续查询结果页面中记录抽取的执行效率。 4.5 提出了一种基于
11、模式属性间函数依赖关系的数据清洗方法。为提高来自多个 Web 数据库的查询结果记录的数据质量,该方法借助于实体识别技术,利用模式属性间函数依赖关系,能够有效地修复查询结果记录中不完全、不精确和不正确的属性值。同时,给出了增量式数据集成方法,即通过对记录集合的数据质量评估结果决定集成的顺序,有效地提高了数据集成的执行效率。 4.6 设计并实现了一个 Web 数据库集成的原型系统 DDW Search。基于本文对 Web 数据库集成框架关键技术的研究成果,实现了基于特定领域的原型系统。用户可以通过系统提供的全局查询接口输入查询请求,并查看由多个 Web 数据库返回的查询结果。 总之,本文研究了 W
12、eb 数据库集成框架及涉及的关键技术,对其中包含的主要研究问题提出了新颖的解决方案。大量的实验结果与分析表明这些方法能够有效地解决在 Web 数据库集成中存在的问题,同时具有较高的准确性和执行性能。 希望本文对于 Web 数据库集成的研究和提出这些方法对于大数据的研究工作具有一定的参考价值。 5.结束语 数据就是直接的财富。和互联网时代相比,大数据的时代,不仅意味着更广泛、更深层的开放和共享,还意味着更精准、更高效、更智能的管理革命。在大数据的时代,数据就是直接的财富、就是核心的竞争力。大数据时代的这些新应用和新的商业模式将影响改变全球每一个人的生活。 参考文献: 1聂铁铮,Deep Web 中 Web 数据库集成关键技术的研究. 2郑策 ,系统数据仓库的设计与实现. 3涂子沛,大数据 .