1、第四章 数据仓库设计与开发o 本章目标n 了解数据仓库开发应用过程n 熟悉数据仓库的规划内容、目标等n 掌握数据仓库的分析与设计过程、内容n 了解数据仓库的实施过程第四章 数据仓库设计与开发o 本章内容n 4.1 数据仓库开发应用过程n 4.2 数据仓库的规划n 4.3 数据仓库的分析与设计n 4.4 数据仓库的实施n 4.5 数据仓库技术与开发的困难4.1 数据仓库开发应用过程o 数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成三个阶段:n 数据仓库规划分析n 数据仓库设计实施n 数据仓库使用维护o 这三个阶段是一个不断循环、完善、提高的过程(螺旋式)
2、。螺旋式开发应用过程设计体系结构开发概念模型开发逻辑模型 数据库与元数据设计数据抽取转换与加载开发中间件填充与测试数据仓库数据仓库应用数据仓库维护数据仓库评价规划与确定需求规划分析阶段设计实施阶段使用维护阶段4.2 数据仓库的规划o 选择数据仓库实现策略n 自顶向下:实际应用比较困难 。n 自底向上:用于一个数据集市或一个部门的数据仓库开发 ,容易获得成功,容易获得成功 。n 两种策略的联合使用 :能够快速地完成数:能够快速地完成数据仓库的开发与应用,而且还可以建立具有长据仓库的开发与应用,而且还可以建立具有长远价值的数据仓库方案。在实际使用中难以操远价值的数据仓库方案。在实际使用中难以操作作
3、 。用自顶向下方法o 建造企业数据仓库n 建设中心数据模型n 一次性的完成数据的重构工作n 最小化数据冗余度和不一致性n 存储详细的历史数据o 从企业数据仓库中建造数据集市n 得到大部分的集成数据n 直接依赖于数据仓库的可用性o 问题n 投资效益的时间 ?n 建设中心数据模型的必要性和可能性 ?n 初始费用 ?数据集市外部数据数据集市操作数据企业数据仓库用自底向上方法o 建立部门数据集市n 限制在一个主题区域n 快速投资收益 n 区域自治 设计的可伸缩性强n 对相关部门的应用容易复制 n 对每个数据集市需要数据重构n 存在一定的冗余及不一致性o 逐步扩展到企业数据仓库 (EDW)n 把建造 E
4、DW作为一个长期的目标o 存在的问题 :n 数据集市的数据都是可用的吗 ?n 能生成数据模型吗 ?n 如何解决不一致性 ?操作数据 (全局)/外部数据企业数据仓库数据集市操作数据 (局部 )操作数据 (局部 )数据集市采用从顶向下 VS 从底向下o 企业内部、各个业务部门和各个工作岗位对数据仓库的理解和期望不同。作为具体的部门,有特定的信息需求,都希望能在尽可能短的时间内需求获得满足。建立局部的系统,所需信息能够立即为其使用。因此对部门而言, 他们追求的是一种短期的局部目标,关心的是基于所在位置的局部解决方案。o 整个企业看,建立数据仓库的目的之一是获得对整个企业业务信息的视图。以便能把握和管
5、理企业的经营运行,并对企业进行业务重组。o 企业现有系统往往不同程度上存在各自为政,缺乏统一的规划和设计。数据出自各部门,提供的信息不一致,使得高层无法获得可靠、统一和协调的信息。o 企业追求的是长期的集成目标,关心的是基于整个企业的全面解决方案。o 两者的目标是有矛盾的!确定数据仓库的开发目标和实现范围o 首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。 o 另一个重要目标是确定利用哪些方法和工另一个重要目标是确定利用哪些方法和工具访问和导航数据?具访问和导航数据? o 其它目标是确定数据仓库内部数据的规模其它目标是确定数据仓库内部数据的规模 o 从用户的角度分析从用户的角度分析 o 从技术的角度分析从技术的角度分析数据仓库的结构o 数据仓库的应用结构数据仓库的应用结构 n 基于业务处理系统的数据仓库基于业务处理系统的数据仓库 n 单纯数据仓库单纯数据仓库 n 单纯数据集市单纯数据集市 n 数据仓库和数据集市数据仓库和数据集市 o 数据仓库的技术平台结构数据仓库的技术平台结构n 单层结构单层结构 n 客户客户 /服务器两层结构服务器两层结构 n 三层客户三层客户 /服务器服务器 n 多层式结构多层式结构