数据仓库和数据挖掘的OLAP技术.doc

上传人:滴答 文档编号:1276790 上传时间:2019-01-26 格式:DOC 页数:3 大小:30.50KB
下载 相关 举报
数据仓库和数据挖掘的OLAP技术.doc_第1页
第1页 / 共3页
亲,该文档总共3页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、沈阳工程学院毕业论文 1 数据仓库和数据挖掘的 OLAP 技术 构造数据仓库 涉及数据清理和数据集成,可以看作数据挖掘的一个重要的预处理技术。此外,数据仓库提供联机分析处理( OLAP)工具 ,用语各种粒度的多维数据分析,有利于有效的数据挖掘。进一步讲,许多其他数据挖掘功能,如分类,预测,关联和聚集,都可以与 OLAP 操作集成,以加强多个抽象层上的交互知识挖掘。因此,数据仓库已成为数据分析和联机分析处理日趋重要的平台,并将为数据挖掘提供有效的平台。在系统的介绍数据挖掘技术之前,我们概括的介绍数据仓库技术。对于了解数据挖掘技术,这种概念是必要 的。 什么是数据仓库 数据仓库为商务运作提供结构与

2、工具,以便系统的组织,理解和使用数据进行战略决策。大量组织机构已经发现,在当今这个充满竞争和快速发展的世界,数据仓库是一个有价值的工具。在过去的几年中,许多公司花费数百万美元,建立企业范围的数据仓库。许多人感到,随着工业竞争的加剧,数据仓库成了必备的最新营销武器一种通过更多的了解客户需求而保住客户的途径。 “那么”,你可能充满神秘的问,“到底什么是数据仓库?”数据仓库已被多种方式定义,使得很难得出一种严格的定义。宽松的讲,数据仓库是一个数据库,它与组织机构 的操作数据库分别维护。数据仓库系统允许将各种应用系统继承在一起,为统一的历史分析提供坚实的平台,对信息处理提供支持。 按照 W.H.Inm

3、on这位数据仓库系统构造方面的领头设计师的说法,“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。”这个简短 而又全面的定义指出了数据仓库的主要特征。四个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库与其他数据存储系统(如关系数据库系统、事物处理系统和文件系统)相区别。让我们进一步看看这些关键特征。 面向主题的 :数据仓库围绕一些 主题, 如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事物处理。因此,数据仓库排除对于决策无用的数据,提供特定主题的简明视图。 集成的 : 通常 ,构造数据仓库是将多

4、个 异种数据源,如关系数据库、一般文件和联机事物处理记录,集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等一致性。 时变的 : 数据存储从历史的角度提供信息。 数据仓库中的关键结构,隐式或显示地包含时间元素。 非易失的 :数据仓库总是物理的分离存放数据;这些数据源于操作环境下的 应用数据。由于这种分离,数据仓库不需要事物处理、恢复和并发控制机制。通常,它只需要两种数据访问:数据的初始化装入和数据访问。 概言之 ,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。数据仓库也常常被看作一种体系结沈阳工程学院毕业论文 2 构,

5、通过将异种数据源中的数据集成在一起而构造,支持结构化的和专门的查询、分析报告和决策制定。 “好”,你现在问,“那么,什么是建立数据仓库?” 根据上面的讨论,我们把建立数据仓库看作构造和使用数据仓库的过程。数据仓库的构造需要数据集成、数据清理和数据 统一。利用数据仓库常常需要一些决策支持技术。这使得“知识工人”(例如经理、分析人员和主管)能够使用数据仓库,快捷、方便地得到数据的总体视图,根据数据仓库中的信息 做 出准确的决策 。有些作者使用术语“建立数据仓库”表示构造数据仓库的过程,而用术语“仓库 DBMS”表示管理和使用数据仓库。我们将不区分二者。 “组织机构如何使用数据仓库中的信息?”许多组

6、织机构正在使用这些信息支持商务决策活动,包括 (1)增加顾客关注,包括分析顾客购买模式 (如喜爱买什么、购买时间、预算周期、消费习惯 ); (2)根据季度、年、地区的营销情况比 较,重新配置产品和管理产品投资,调整生产策略; (3)分析运作和查找利润源; (4)管理顾客关系,进行环境调整,管理公司资产开销。 从异种数据库集成的角度看,数据仓库也是十分有用的。 许多组织收集了形形色色数据,并由多个异种的、自治的、分布的信息源维护大型数据库。集成这些数据,并提供简便、有效的访问是非常希望的,并且也是一种挑战。数据库业界和研究界 都正朝着实现这一目标而竭尽全力。 对于异种数据库的集成,传统的数据库做

7、法是:在多个异种数据库上,建立一个包装程序和一个集成程序。这方面的例子包括 IBM 的数据连接技术和数据刀。当一个查询提交客户站点,首先使用元数据字典对查询进行转换,将它转换成相应异种站点上的查询。然后,将这些查询映射和发送到局部查询处理器。由不同站点返回的结果被集成为全局回答。这种查询驱动的方法需要复杂的信息过滤和集成处理 ,并且与局部数据源上的处理竞争资源,这种方法是低效的,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。 对于异种数据库集成的传统方法,数据仓库提供了一个有趣的替代方案。数据仓库使用更新驱动( updata-driven)方法,而不是查询驱动的方法。这种方法将来自多

8、 个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析。与联机事务处理数据库不同,数据仓库不包含最近的信息。然而,数据仓库为集成的异种数据库系统带来了高性能,因为数据被拷贝、预处理、集成、注释、汇总,并重新组织到一个语义 一致的数据存储中。在数据仓库中的进行的查询处理并不影响在局部在局部源上进行的处理。此外,数据仓库存储并集成历史信息,支持复杂的多维查询。这样,建立数据仓库在工业界已经非常流行。 操作数据库系统与数据仓库的区别 由于大多数人都熟悉关系数据库系统, 将数据仓库与之比较,就容易理解什么是数据仓 库。 联机操作数据库系统的主要任务是执行联机事物和查询处理。这种系统称之为联机事

9、物处理系统。 它们涵盖了一个 组织的大部分日常操作,如购买、库存、沈阳工程学院毕业论文 3 制造、银行、工资、注册、记帐等。另一方面,数据仓库系统在数据分析和决策方面为用户或“知识工人”提供服务。这种系统可以用不同的格式组织和数据提供,以便满足不同用户的形形色色的需求。这种系统称为联机分析处理系统。 OLAP 和 OLTP的主要区别概述如下。 用户和系统的面向性: OLTP是面向顾客的,用于办事员、客户和信息技术专业人员的事物和查询处理。 OLAP 是面向市场的, 用 于知识工人的数据分析。 数据内容: OLTP系统管理当前数据。通常,这种数据太琐碎,难以用于决策。 OLAP 系统管理大量历史

10、数据,提供汇总和聚集机制,并在不同粒度的级别上管理和存储信息。这些特点使得数据容易用于见多识广的决策。 数据库设计:通常, OLTP系统采用实体联系模型和面向应用的数据库设计。而 OLAP 系统通常采用星型或雪花模型和面向主题的数据库设计。 视图: OLTP系统主要关注一个企业或部门 内部的当前数据,而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化, OLAP 系统通常跨越数据库模式的 多个版本。 OLAP系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大, OLAP 数据也存放在多个存储介质上。 访问模式: OLTP系统的访问主要由短的原子事物组成。这种系统需要

11、并行控制和恢复机制。然而,对 OLAP 系统的访问大部分 是只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。 OLAP 和 OLTP的其它区别包括数据库大小、操作和频繁程度、性能度量等。 为什么需要一个分离的数据仓库 : “既然操作数据库存放了大量数据”,你注意到,“为什么不直接在这种数据库 上进行联机分析处理,而是另外花费时间和资源去构造一个分离的数据仓库?”分离的主要原因是提高两个系统性能。操作数据库是为已知的任务和负载设计的,如使用主关键字索引和散列,检索特定的记录和优化 “罐装的”查询。另一方面,数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,可能需要特殊的数据组织、存取方法和基于多维视图的实现方法。在操作数据库上处理 OLAP 查询,可能会大大降低操作任务的可能。 此外,操作数据库支持多事物的并行处理,需要加锁和日志等并行控制和恢复机制,以确保一致性和事物的强健性。通常, OLAP 查询 只需要对数据进行只读访问,以进行汇总和聚集。如果将并行控制和恢复机制用于这种 OLAP操作,就会危害并行事物的运行,从而大大降低 OLTP系统的吞吐量。

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 实用文档资料库 > 演示文稿

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。