1、数据库系统原理第二部分第七章 数据挖掘与数据仓库v7.1 数据仓库概述v7.2 数据挖掘技术v7.3 WEB数据挖掘7.1 数据仓库概述v一、什么是数据仓库v二、 DBMS与 DWMSv三、数据仓库的系统结构v四、数据仓库的工作过程不同层次的信息处理需求v事务处理需求 不同的事务处理子系统 采购子系统: 订单、订单细则、供应商 销售子系统: 顾客、销售 库存子系统: 出库领料单、进料入库单、库存台帐 人事子系统: 员工、部门 各种事务处理需求 一笔订购、一笔销售、一次进料、一次出料v要求 强调多用户并发环境,数据的一致性、完整性不同层次的信息处理需求v分析处理需求 今年销售量下降的因素(时间、
2、地区、商品、销售部门) 某种商品今年的销售情况与以往相比,有怎样的变化?每年的第一季度商品销售在各类商品上的分布情况怎样?v要求 多个子系统中的数据(数据集成) 历史数据 汇总、综合的数据从数据库到数据仓库v事务处理与分析处理的性能特性不同 事务处理环境 数据存取操作频率高 每次操作处理的时间短 占用系统资源少 系统可以允许多个用户按分时方式使用资源,保持较短的响应时间 分析处理环境 运行时间长 消耗大量系统资源 事务与分析应用不宜放在同一中环境中从数据库到数据仓库v数据集成问题 事务处理 目的是使业务自动化 只关注与本部门业务相关的当前数据 事务处理应用的分散:企业内部各事务处理应用间相互独
3、立 DSS需要集成的数据 (内部各部门数据、外部数据、竞争对手数据) DSS需要对分散在各个事务处理应用中的相关数据进行集成,以向分析人员提供统一的数据视图从数据库到数据仓库v数据动态集成问题 每次分析都进行数据集成的开销太大 静态集成 开始对所需数据进行集成,以后就一直以这部分数据作为分析的基础,不再与数据源发生联系 如果数据源发生了变化,这些变化不能反映到集成数据中,导致决策者使用的是过时的数据 动态集成 集成数据必须以一定的周期进行刷新 事务处理系统不具备动态集成的能力数据仓库的定义数据仓库是一个 面向主题的面向主题的 ( Subject Oriented), 集成的集成的 ( Integrated),相对稳定的相对稳定的 ( Nonvolatile), 反映历史反映历史变化的变化的 ( time Variant) 数据集合。用于支持管理决策 一、什么是数据仓库v数据仓库 技术所要研究和解决的问题就是从 OLTP系统、异构分散的外部数据源、脱机的历史业务数据中获取数据,处理后为数据分析和管理决策提供应用服务 。v数据仓库 就是 面向主题的、集成的、不可更新的 (稳定性 )随时间不断变化(不同时间)的数据集合 ,用以支持经营管理中的决策制定过程。