1、厦门大学软件学院毕业论文 本科毕业论文 (科研训练、毕业设计 ) 题 目:基于 IBM DB2 的数据仓库设计与实现 姓 名: 学 院:软件学院 系: 专 业:软件工程 年 级: 学 号: 指导教师(校内): 职称: 2019 年 1 月 26 日厦门大学软件学院毕业论文 - I - 基于 IBM DB2 的数据仓库设计与实现 摘要 当今,数据仓库技术不再仅仅是理论研究,而是过渡到实际应用发展的阶段,许多企业已经在数据仓库的环境下进行业 务增值,由于数据仓库的产生,信息获取的能力大大提升,使数据仓库成为当今企业中重要的管理系统。 本文首先介绍了数据仓库的发展历史,应用现状,基本特征和一般体系结
2、构等概念。然后基于 IBM DB2数据库系统,通过一些实例,把抽象的理论具体化,并进行了数据仓库的设计。在设计中,分成确定主题,准备数据和设计模型等步骤。最后对通信业务系统原型提出了设计方案。 通过 IBM DB2工具将设计方案实施,本文简要介绍了一些 DB2的相关工具,然后逐步将数据的抽取、转换、加载过程, OLAP操作,立方体的概念等部分进行描述,最后提出 了数据仓库发展的必然趋势和最终目的,对数据仓库整体设计和实现进行了总结。 关键词 数 据仓库 OLAP 联机分析处理 厦门大学软件学院毕业论文 - II - The Design and Implement of Data Wareho
3、use in DB2 Abstract Nowadays, the warehouse technology is not only merely theoretical, but also the transition to the stage of the development of practical applications. Many enterprises got more business values in the environment of data warehouse. With enhanced the ability of accessing to informat
4、ion, the data warehouse has become an important management system in the business. This paper introduces some data concept, including the history of warehouse, the basic characteristics of database and the general data warehouse architecture. Based on the IBM DB2 database system, I had design a data
5、 warehouse. I made the whole plan for dividing the whole procedure into some parts, which were definition the theme, preparation of the data and model design. Finally, I Proposed design options for Business communications systems. The design was implemented through IBM DB2 tools. The paper outlined
6、some DB2 related tools, and then explained the ETL system, the operation of OLAP and the concept of cube. In the end, I made a conclusion on design and realization of data warehouse. Key words data warehouse OLAP 厦门大学软件学院毕业论文 - III - 目 录 第一章 引言 . 1 1.1. 数据仓库的概念 . 1 1.1.1. 数据仓库的起源 . 1 1.1.2. 从数据库到数据仓
7、库的演化 . 2 1.2. 数据仓库的发展趋势 . 2 1.2.1. 计算机技术对数据仓库发展的影响 . 3 1.2.2. 商业对数据仓库发展的影响 . 3 第二章 数据仓库原理 . 3 2.1. 数据仓库的定义与特征 . 3 2.2. 数据仓库体系结构 . 4 2.3. 数据仓库的组成 . 5 2.3.1. 数据仓库数据库 . 5 2.3.2. 数据抽取工具 . 5 2.3.3. 元数据 . 6 2.3.4. 访问工具 . 6 2.3.5. 数据集市 . 6 2.4. 联机分析处理技术 . 6 2.4.1. 联机处理分析的概念 . 6 2.4.2. 联机分析处理的特点 . 7 2.4.3.
8、OLAP 的典型操作 . 8 2.4.4. OLAP 的多维数据结构 . 8 第三章 数据仓库平台设计 . 10 3 1 构建数据仓库 . 11 3.1.1. 数据仓库开发流程 . 11 3.2. 数据仓库实施框架 . 11 3.3. 数据源的分析 . 12 3.3.1. 来自业务系统的实时数据 . 12 3.3.2. 汇总数据 . 12 3.4. 数据仓库模型设计 . 13 3.4.1. 数据仓库的建模技术 . 13 3.4.2. 实体关系模型 . 13 厦门大学软件学院毕业论文 - IV - 3.4.3. 维度建模 . 14 3.5. 数据抽取 /转换 /加载( ETL)过程 . 15 3
9、.5.1. 数据抽取 . 16 3.5.2. 数据转换 . 16 3.5.3. 数据加载 . 17 第四章 数据仓库基于 IBM DB2 的实现 . 18 4.1. IBM 的数据仓库解决方案 . 18 4.1.1. 主要工具介绍 . 18 4.1.2. DB2 数据仓库的 OLAP 服务 . 20 4.2. OLAP 实例分析 . 22 4.2.1. 确定分析主题 . 23 4.2.2. 确定分析方法 . 23 4.2.3. 定义维度 . 22 4.2.4. 构造分析立方体或星型结构 . 23 4.3. MOLAP(Multidimensional OLAP)的实现 . 23 4.3.1.
10、创建立方体模型事实表 . 24 4.3.2. 创建模型的维 . 24 4.3.3. 为维创建层次结构 . 24 4.3.4. 为每个层次结构创建层 . 24 4.3.5. 创建立方体 . 24 第五章 结论 . 26 5.1. 总结 . 26 5.2. 展望 . 27 致谢语 . 28 参考文献 . 29厦门大学软件学院毕业论文 - 1 - 第一章 引言 1.1. 数据仓库的概念 随着市场竞争的日趋激烈,信息对于企业的生存和发展发挥着越来越重要的作用。由于计算机技术的普遍应用,承载信息的数据随着时间的推移而不断的增加,并且数据分布在不同的系统平台上,具有多种存储形式。能否从纷繁复杂、大量沉淀的
11、数据中得到有用的决策信息,及时做出正确的分析和决策,己成为企业生存与发展至关重要的课题。自从 20世纪 70年代提出决策支持的概念以来,人们在决策支持系统 (Decision Support System, DSS)理论及应用上做了大量的研究工作,并且在企业决策中发挥了积极的作用。然而,传统的数据库管理系统因自身的局限性已无法满足决策支持系统对数据的要求。因此,适用于决策 支持系统的数据组织与管理技术 数据仓库技术 (Data Warehouse)应运而生,并逐渐成为支持分析与决策的重要技术 。 1.1.1. 数据仓库的起源 数据仓库和决策支持系统( Decision Support Syst
12、em, DSS)处理的起源可以追溯到计算机与信息系统发展的初期。 60 年代, IBM 公司开发了第一个通用的 DBMS 系统 IMS,这是一个层次数据 库系统,在数据库系统发展史上有着重要的地位。 到了 1969 年, E.F.Codd 博士发表了他著名的关系数据模型的论文。此后,关系数据库的出现开创了数据管理的一个新时代。大量新技术、新思路的涌现出来并被用于关系型数据库系统的开发和实现 , SQL 的使用已成为一个不可阻挡的潮流,加上 计算机硬件的处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。整个 80 年代直到 90 年代初,联机事务处理一直是数据库应用的主流。然而,
13、应用在不断地进步。当联机事务处理系统应用到一定阶段后,用户便发现单靠拥有联机事务处理已经不足 以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的情况进行分析,而做出有利的决策。这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争环境下,这种基于业务数据的决策分析,称为联机分析处理 。为了让 联机事务处理 在业务中有更方便,快捷的应用, 人们为业务的统计分析建立一个数据中心 , 这个数据中心是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它可以满足决策支持和联机分析应用所要求的一切。这个数据中心 也就是 数据仓库 的 原型 。总
14、体来说, 数据仓库是一个作为决 策支持系统和联机分析厦门大学软件学院毕业论文 - 2 - 应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息的问题。 1.1.2. 从数据库到数据仓库的演化 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理 (或信息型处理 )。 操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数 据
15、。而传统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。操作型处理和分析型处理的分离成为必然。近年来,随着数据库技术的应用和发展,人们尝试对 数据库 中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术 (Data Warehousing, DW), 作为决策支持系统 。 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。 数据仓库与传统的数据库系统相比 ,有着本质的不同。 数据 库是一种通用平台,建立于严 格的数学模型之上,用来管理企业数据,进行事
16、务处理,完成相关业务; 而数据仓库没有严格的数据理论,更偏向于工程,它不是花钱就可购买到的成品,而是企业一个日积月累的建立过程,它的应用对象是不同层次的管理者,它的数据源是多种数据源,库中数据无须修改删除,主要是大规模查询和分析,因此要求有大量的历史数据和汇总数据。 1.2. 数据仓库的发展趋势 数据仓库是数据管理技术和市场上一个方兴未艾的领域,有着良好的发展前景。在此,我们将从技术、应用、市场等几个方面探讨数据仓库的未来发展。 数据仓库 的发展自然包括数据抽取、存储管理、数据表现和方法论等方面。在数据抽取方面,未来 的技术发展 将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准
17、化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,同时与 Internet/Web 技术紧密结合,推出适用于Intranet、终 端免维护的数据仓库访问前端。在这个方面,按行业应用特征细化的数据仓库厦门大学软件学院毕业论文 - 3 - 用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确
18、分支,成为管理信息系统设计的必备。 1.2.1. 计算机技术对数据仓库发展的影响 计算机应用发展的数据仓库倾向是数据仓库发展的推动力。传统的联机事务处理系统并不单独考虑数据仓库,但实际应用对数据仓库所能提供的功能却早有需求。因此,许多事务处理系统近年来陷入一个两难的境地:在现有系统上增加有限的联机分析功能,包括复杂的报表和数据汇总操作;一方面 严重影响了事务处理联机性能,另一方面统计分析又因系统结构上的种种限制而不能充分体现。其结果是:应用技术的发展是朝着更加细化,更加专业的方向。在新一代的应用系统中,数据仓库在一开始便被纳入系统设计的考虑,联机分析应用于普遍的事务处理系统之中。在数据管理上,
19、联机事务处理和数据仓库在应用中相对独立,使联机事务处理系统本身更加简洁高效,同时分析统计也更为便利。面向行业的数理统计学向更为普遍的应用发展,并集成到应用系统的数据仓库解决方案中。它们将立足于数据仓库提供的丰富信息,更好地为业务决策服务。 1.2.2. 商业 对数据仓库发展 的影响 在未来的商业中, 数据管理 不仅在 传统领域,如金融、保险、电信 ,发挥巨大的作用,而且 数据仓库的应用随着现代社会商业模式的变革而进一步普及和深入。 当一些专家预测 数字化定制经济模式 可能 成为 今后 企业生产的组织原则 ,那么 在未来大规模定制经济环境下,数据仓库 ,特别是 基于数据管理和利用的综合性技术和解
20、决方案 , 将成为企业获得竞争优势的关键武器。厦门大学软件学院毕业论文 - 4 - 第二章 数据仓库原理 2.1. 数据仓库的定义与特征 数据仓库概念创始人 W.H.Inmon 在建立数据仓库一书中对数据仓库的定义是: 数据仓库就是面向主题的、集成的、不可更新的 (稳定性 )、 随时间 不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过 程。 数据仓库的特征: 1、面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离, 而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信
21、息系统相关。 2、集成的 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总 和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 3、相对稳定的 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 4、反映历史变
22、化 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某 一时点 (如开始应用数据仓库的时点 )到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 2.2. 数据仓库体系结构 数据源 是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部厦门大学软件学院毕业论文 - 5 - 信息。内部信息包括存放于 RDBMS 中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等 。 1 数据的存储与管理 是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理
23、。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现 形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库 。 2 OLAP 服务器 对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为: ROLAP、 MOLAP 和 HOLAP。 ROLAP 基本数据和聚合数据均存放在 RDBMS 之中; MOLAP 基本数据和聚合数据均存放于多维数据库中; HOLAP 基本 数据存放于 RDBMS 之中,聚合数据存放于多维数据库中。 3 前端工具 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具 以 数据挖掘 及各种 基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对 OLAP 服务器,报表工具、数据挖掘工具主要针对数据仓库。 图 2-1 数据仓库体系结构 2.3. 数据仓库的组成