ImageVerifierCode 换一换
格式:DOC , 页数:7 ,大小:27KB ,
资源ID:1561569      下载积分:10 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1561569.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(面向大数据的Deep Web数据系统关键技术研究.doc)为本站会员(gs****r)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

面向大数据的Deep Web数据系统关键技术研究.doc

1、面向大数据的 Deep Web 数据系统关键技术研究摘要:由于数据产生成本的急速下降,人类社会产生的数据不仅以指数级别增长,而且数据的结构变得日趋复杂,使得传统的数据分析技术遇到了极大的挑战。如何对大量复杂数据进行分析和挖掘,从中提取有价值的知识用于决策,已经成为产业界和学术界的广泛关注问题,在一些国家已上升到国家战略层面。本文介绍了大数据的基本概念、特征和面临的科学问题,总结了“Deep Web”课题的一些先期成果,为开发大数据管理、分析和挖掘系统提供一些参考依据。 关键词:大数据;Deep Web;系统;技术研究 中图分类号:TJ768.4 文献标识码:A 文章编号: 引言 在全球经济的很

2、多领域,大数据在以很多方式创造价值。随着各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大浪潮的尖峰,这个浪潮,就是大数据驱动的创新、生产效率提高、经济增长以及新的竞争形式和新的价值的产生。 1.大数据 指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 1.1 大数据的特点,业界通常用 4 个“V” Volume,Variety,Value,Velocity。或者说特点有四个层面:第一,数据体量巨大。从 TB 级别,跃升到 PB 级别;第二,数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三,价值密

3、度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1 秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。 1.1.1 数据体量巨大。从 TB 跃升到 PB 至 EB 级别。要知道目前的数据量有 多大,我们先来看看一组公式。1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=YB。到目前为止,人类生产的所有印刷材料的数据量是 200PB,而历史上全人类说过的所有的话的数据量大约是 5EB。 1.1.2 数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主

4、的结构化数据,越来越多的非结构化数据的产生给所有厂商都提出了挑战。拜互联网和通信技术近年来迅猛发展所赐,如今的数据类型早已不是单一的文本形式,除了网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求。 1.1.3 价值密度低。价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题。 1.1.4 处理速度快。这是大数据区分于传统数据挖掘最显著的特征。根据 IDC 的一份名为“数字宇宙”的报告,预计到 202

5、0 年全球数据使用量将会达到 35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。 2.大数据的价值 2.1 现在有很多通过大数据分析受益的经典案例。美国的海啸预警系统一直为人们津津乐道,2011.3.11 日本大地震发生后仅 9 分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型便出现在 YouTube 等网站。大数据分析在指导人们有效规避自然灾害面前发挥了很大的作用. 2.2 在商业领域,eBay 则很好地起到了示范作用。eBay 定义了超过 500 种类型的数据,对顾客的行为进行跟

6、踪分析,每天处理的数据量高达 100PB,通过准确分析用户的购物行为,达到了减少广告投入、稳定高端卖家、实现持续增长的目的。 通过案例可知,大数据分析的价值非常大。企业用来分析的数据越全面,分析的结果就越接近于真实,因此,大数据具有很大的商业价值。 3.数据到大数据 “大数据”与我们通常所说的“数据”有显著的不同。伴随着传统的商业智能系统向纵深应用的拓展,商业决策已经越来越依赖于数据。一般,企业的数据分 3 种类型:结构化数据、半结构化数据和非结构化数据。其中,85%的数据属于广泛存在于物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和

7、技术的不断涌现和应用。企业用以分析的数据越全面,分析的结果就越接近于真实。 4.Web 数据库集成的研究现状 Web 数据库作为一种重要的 Deep Web 资源,其中包含了大量可供访问的数据信息。这些数据信息具有良好的结构化特征且指向特定领域的数据记录,因此能够为科学研究和系统应用提供更高质量的数据服务。以下是“Deep Web”课题的一些先期成果,可以为开发大数据管理分析和挖掘系统提供一些参考依据。Web 数据库集成中针对 Web 数据库集成框架的结构模型,Web 数据库集成中的若干关键技术提出了新颖、有效的解决方法,主要工作包括以下几点: 4.1 提出了一种基于元搜索模式的 Web 数据

8、库集成框架。Web 数据库集成框架的目的是为用户统一访问 Web 数据库资源提供支持。基于元搜索模式的 Web 数据库集成框架,能够透明的访问和及时的更新数据,并具有较低的系统运行代价。本文分析了实现 Web 数据库集成框架中所需的关键技术,将框架分为离线的 Web 数据库搜索模块和在线的查询处理模块。前者是从 Web 中发现特定领域 Web 数据库的查询接口,抽取其模式信息并对其进行分类;后者的目的是实现对 Web 数据库即时访问,抽取并标注查询结果记录,并将集成后的结果数据集返回给用户。 4.2 提出了基于实例的查询结果模式抽取方法。完整的模式信息对于数据集成有着至关重要的作用。对于 We

9、b 数据库而言,查询接口模式决定其功能,而查询结果模式描述了其中的数据内容。现有的研究工作往往只关注于查询接口模式而忽略了查询结果模式。本文给出了基于标签的查询接口模式属性识别方法。在此基础上,提出了基于近似查询和精确查询的两段式模式匹配模型。通过在结果页面的 DOM 树中匹配查询关键字,并利用查询结果记录在页面中连续出现的特征识别模式属性。同时提出基于属性共现度的匹配方法提高模式属性的查全率和查准率。 4.3 提出了面向内容的 Web 数据库分类方法。现有基于领域的 Web 数据库分类方法已难以满足应用需求。为此,本文提出将领域中记录基于其内容划分为多个主题分类。主要解决方案为:使用主题分类

10、中的样本实例对 Web 数据库查询探测,并基于查询返回的结果数量构建查询结果矩阵,该矩阵能够准确地反映出主题分类与 Web 数据库内容之间的匹配关系;基于矩阵内容得到主题分类。基于内容的分类结果能够为查询更准确地匹配 Web 数据库。 4.4 提出了一种有效的查询结果记录抽取技术。为避免对大量页面内容的语义匹配,有效地保证数据抽取的执行效率,本文首先基于 URL 匹配的方法准确的确定要抓取查询结果页面;之后利用查询结果模式抽取中识别出的模式属性路径定位查询结果记录,并实现查询结果记录的抽取与标注。基于属性路径构建的包装器能有效的改善连续查询结果页面中记录抽取的执行效率。 4.5 提出了一种基于

11、模式属性间函数依赖关系的数据清洗方法。为提高来自多个 Web 数据库的查询结果记录的数据质量,该方法借助于实体识别技术,利用模式属性间函数依赖关系,能够有效地修复查询结果记录中不完全、不精确和不正确的属性值。同时,给出了增量式数据集成方法,即通过对记录集合的数据质量评估结果决定集成的顺序,有效地提高了数据集成的执行效率。 4.6 设计并实现了一个 Web 数据库集成的原型系统 DDW Search。基于本文对 Web 数据库集成框架关键技术的研究成果,实现了基于特定领域的原型系统。用户可以通过系统提供的全局查询接口输入查询请求,并查看由多个 Web 数据库返回的查询结果。 总之,本文研究了 W

12、eb 数据库集成框架及涉及的关键技术,对其中包含的主要研究问题提出了新颖的解决方案。大量的实验结果与分析表明这些方法能够有效地解决在 Web 数据库集成中存在的问题,同时具有较高的准确性和执行性能。 希望本文对于 Web 数据库集成的研究和提出这些方法对于大数据的研究工作具有一定的参考价值。 5.结束语 数据就是直接的财富。和互联网时代相比,大数据的时代,不仅意味着更广泛、更深层的开放和共享,还意味着更精准、更高效、更智能的管理革命。在大数据的时代,数据就是直接的财富、就是核心的竞争力。大数据时代的这些新应用和新的商业模式将影响改变全球每一个人的生活。 参考文献: 1聂铁铮,Deep Web 中 Web 数据库集成关键技术的研究. 2郑策 ,系统数据仓库的设计与实现. 3涂子沛,大数据 .

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。