1、数据仓库与管理信息系统( DW/MIS) 1 目录 目录 . 1 引 言 . 3 背景简介 . 3 关于毕设 . 3 第一章 概述 . 4 1.1 数据仓库产生的原因 . 4 1.2 与数据仓库相关的几个概念 . 4 第二章 数据仓库的优点 . 6 2.1 数据仓库和管理信息系统的商业价值 . 6 2.2 数据仓库的特点 . 7 第三章 数据仓库系统 . 8 3.1 数据仓库系统示意图 . 8 3.2 四个层次体系结构 . 9 第四章 数据仓库的数据采集 .10 4.1 数据仓库处理的部件图示 .10 4.2 后台处理 .10 4.3 中间处理 . 11 4.4 前台处理 . 11 第五章 数
2、据仓库的技术体系结构 . 11 5.1 技术体系 结构示意图 .12 5.2 各个模块 .12 5.3 数据准备阶段相关问题 .13 5.3.1 数据的有效性检查 .13 5.3.2 数据的清除和转换 .13 5.3.3 移动数据 .16 第六章 数据仓库的建立 .16 6.1 明确主题 .16 6.2 数据仓库设计 .16 6.3 数据抽取 .16 6.4 数据仓库与元数据管理 .17 6.4.1 元数据的概念 .17 6.4.2 元数据的作用 .18 6.4.3 元数据管理相关工具 .19 6.4.4 元数据管理标准化 .20 6.4.5 元数据管理系统的设计 .20 第七章 毕设 MIS
3、 演示系统 .21 7.1 系统功能简介 .21 7.2 数据库和数据表 .21 7.3 系统截图和相关代码分析 .22 7.3.1 登陆界面 .22 7.3.2 主界面 .24 7.3.3 公司员工信息管理 .25 7.3.4 库存产品信息 .30 数据仓库与管理信息系统( DW/MIS) 2 7.3.5 销售信息管理 .31 7.3.6 公司进货信息 .32 7.3.7 供应商信息 .32 7.3.8 顾客信息 .33 7.3.9 进货信息报表 .33 7.3.10 库存产品信息报表 .34 7.3.11 我的文档 .37 7.3.12 销售信息报表 .37 7.3.13 Mschart
4、控件生成图表(随机生成数据) .38 致 谢 .43 参考文献 .44 附 录 .45 数据仓库与管理信息系统( DW/MIS) 3 引 言 背景简介 中国建设银行与其他国内银行一样面临着市场开放后所带来的各种机遇与挑战。为了从容应对外部环境变化和日益激烈的竞争, 配合 建设银行重组上市的步伐,加紧进行并完成各项体制改革任务的同时,全面提高整体科技应用水平也成为当务之急 。 以数据仓库为基础的管理信息与决策支持系统是现代商业银行得以稳步持续发展的推动力量,建设和优化这些系统是西方商业银行的信息化发展趋势之一。数据仓库是面向主题的、集成的、非易失的、随时间变化的数据集合,用来支持管理人员的决策。
5、数据仓库是集中数据管理系统的关键部 件,是分析型管理信息系统和决策支持系统( DSS)的基础 。 对于建设银行而言, 数据仓库以及在其基础上的管理信息系统建设具有以下的战略意义和价值: ( 1) 能 更好地解决已面临的数据管理与应用问题; ( 2) 适应集约化经营的需要,为科学化、定量化管理决策提供支持; ( 3) 促进信息资源集中管理与有效利用机制的形成,支持企业获得持续发 展的竞争能力。 关于 毕设 实习期间,我参与的是 DW/MIS 前端处理一块, 本项目预计 今年( 05) 12 月份完工,目前刚完成前期准备阶段,工具设备 尚 未定型,因此无法赋予 设备 截 图,望各位老师见谅。实习阶
6、段, 在校外老师耐心指导下,我学习了与数据仓库相关的 理论 知识,并参加 编写了 建行员工 培训管理 信息系统 费用 相关 模块 。 本文主要介绍了与数据仓库相关的重要知识和内容,并对其背景、关键技术及优点做了阐述。 本次设计是 运用 C 语言 模拟写过的 员工 培训系统 费用模块 实现的一个商品公司管理信息系统 平台 , 并为了和数据仓库前端展示一块相结合,在系统中还附带了动态报表生成的功能。即实现了查询 所需各种信息,并按 查询生成报表的能力。 数据仓库与管理信息系统( DW/MIS) 4 第一章 概述 1.1 数据仓库产生的原因 事务处理环境不适宜 DSS 应用 的原因主要有以下 : (
7、 1)事务处理和分析处理的性能 特性不同 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;(vs) 在分析处理环境中,用户的行为模式与此完全不同,某个 DSS 应用程序可能需要连续几个小时,从而消耗大量的系统资源。将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。 ( 2)数据集成问题 DSS 需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,主要有事务 处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化
8、数据。 ( 3)数据动态集成问题 静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些 变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期(例如 24 小时)进行刷新,我们称其为动态集成 (因此不能用集成数据的 DSS)。显然,事务处理系统不具备动态集成的能力。 ( 4)历史数据问题 事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,切不同数据的保存期限也不一样,即使有一些历史数据保 存下来了,也被束之高阁,未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须一大量的历史数据为依托。没有历史数据的详细分析,是难以把握企
9、业的发展趋势的。 DSS 对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。 ( 5)数据的综合问题 在事务处理系统中积累了大量的细节数据,一般而言, DSS 并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以限制。 要提 高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照 DSS 处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数
10、据存储和组织技术。 1.2 与数据仓库相关的几个概念 Data warehouse 数据仓库与管理信息系统( DW/MIS) 5 本世纪 80 年代中期,“数据仓库之父” William H.Inmon 先生在其建立数据仓库一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与 时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。而不是一种可以购买的产品。 OLAP 联机分析处理 (OLAP)的概念最早是由关系数据库之父 E.F.Codd 于 1993 年提出
11、的。当时 ,Codd 认为联机事务处理 (OLTP)已不能满足终端用户对数据库查询分析的需要 ,SQL 对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果 ,而查询的结果并不能满足决策者提出的需求。 DSS 决策 支持系统( Decision Support system),相当于基于数据仓库的应用。决策支持就是在收集所有有关数据和信息,经过加工整理,来为企业决策管理层提供信息,为决策者的决策提供依据。 ETL 数据抽取( Extract)、转换( Transform)、清洗( Cleansing)、装载( Load)的过程。构建数据仓库的
12、重要一环,用户从数据源抽取出所需的数据,经过数据清洗 ,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 EIS 领导信息系统( Executive Information System) ,指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。 BI 商业智能( Business Intelligence) ,指数据仓库相关技术与应用的通称。指利用各种智能技术,来提升企业的商业竞争力。 CRM 客户关系管理( Customer Relationship management) ,数据仓库是以数据库技术为基础但又与传统的数据库应
13、用有着本质区别的新技术, CRM 就是基于数据仓库技术的一种新应用。但是,从商业运作的角度来讲, CRM 其实应该算是一个古 老的 “应用 “了。比如,酒店对客人信息的管理,如果某个客人是某酒店的老主顾,那么该酒店很自然地会知道这位客人的某些习惯和喜好,如是否喜欢靠路边,是否吸烟,是否喜欢大床,喜欢什么样的早餐,等等。当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的房间和服务。这就是一种 CRM. Meta Data 数据仓库与管理信息系统( DW/MIS) 6 元数据,关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数
14、据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发 展和使用提供方便。 第二章 数据仓库的优点 2.1 数据仓库和管理信息系统 的 商业价值 DW/MIS 对建设银行具有极其重要的作用,可以帮助建行 有效面对各种挑战: 1) 可以帮助建设银行提高管理决策的效果和速度,增强资金使用的效率,有效应对银行的服务市场正由卖方市场向买方市场转变的经营管理压力、存款资金分流的压力和国内银行利息收入的下降的压力。 2) 可以帮助建设银行加大对风险资产的控制,加强内部控制,提高信息披露的程度。 3) 可以帮助建设银行形成目标的细分市场格局和客户服务方式,形成自己的竞争优势
15、。 4) 可以帮助建设银行采用国际会 计准则或其他公认的会计准则编制帐项,为建设银行未来寻求机会在资本市场上筹集资金,更客观地衡量实际盈利水平创造有利条件。 5) 可以帮助建设银行在风险管理方面完成总体不良贷款率从 15降到 10及新增不良贷款控制在 1%的战略目标,从组织架构、管理流程、风险度量工具和信息技术四个方面提高信贷风险体系的管理能力,同时加强风险组合管理的能力。 6) 可以帮助建设银行进行基于产品、客户、渠道的成本核算和利润贡献度分析,这对于建行进行更准确的产品定价和提高成本效益管理水平提供了基础。 7) 可以帮助建设银行实现从以帐户为基础转为以客户为 基础的经营,具备对客户信息进
16、行采集、分析和相应区分目标客户的机制和能力。 8) 可以帮助建设银行建立完善的人力资源和绩效薪酬体系,改进业绩评估制度和基层员工培训制度,并形成统一的企业文化的认知。 9) 可以帮助建设银行改变目前各类数据分散于不同系统、平台和数据库中,缺乏一致性,信息分析利用能力低,造成不能为管理部门和业务部门提供完整详细的管理信息报告,特别是客户分析、风险管理和业绩评估方面的报告的状况。这对建设银行数据仓库与管理信息系统( DW/MIS) 7 应付日益激烈的竞争,降低营运风险,采用合理的产品定价和提高服务水准打下了良好的基础。 10)可以帮助建设银行进行 IT资源的有效整合和利用,对各个项目进行效益预测和
17、分析,有利于项目总体投资的控制。 11)可以帮助建设银行在管理信息系统方面改变目前的业务支持系统的技术平台繁多,缺乏统一 标准,不利于系统的集中维护的弱点。 2.2 数据仓库的特点 数据仓库是一个面向主题的( Subject Oriented)、集成的( Integrate)、相对稳定的( Non-Volatile)、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数
18、据,而且存放在数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 1、面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 主题是对应某一分析领域的分析对象,主题的抽 取应该是按照分析的要求确定的。举个例子来说明什么是面向主题 :MIS 系统中有采购子系统,库存子系统,销售子系统,那么在 DSS中要分析的主要有采购的商品,供应商,销售的商品,顾客等基本信息,所以数据仓库中分别对应着商品,
19、顾客,供应商等主题。 2、集成的 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一 致的全局信息。 数据仓库与管理信息系统( DW/MIS) 8 集成是指数据仓库中的数据是从原有的分散的数据库中抽取出来的。在数据集成过程中有许多工作要做。比如去掉噪声数据,也就是明显不合理的数据;还有统一源数据中所有矛盾的地方,比如字段名称的统一,单位的统一等;还有数据综合,也就是在数据进入数据仓库之前进行综合
20、,比如将原来每天的数据按月综合。 3、相对稳定的 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留 ,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 不可更新的意思是不对数据进行更新操作。因为数据仓库的数据主要是供决策分析用的,所涉及的数据操作主要是数据查询。但是着里的不更新只是不进行 UPDATE 的操作,不是指数据的追加和删除。 4、反映历史变化 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包
21、含历史信息,系统记录了企业从过去某一时点 (如开始应用数据仓库的时点 )到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出 定量分析和预测。 数据是随时间不断变化的。数据仓库随时间变化不断增加新的数据内容,也不断的删去旧的内容。数据仓库中包含大量与时间有关的综合数据,随着时间的变化,数据要进行重新综合。比如今年的数据周综合,到了明年要对数据按季度进行综合。 第三章 数据仓库系统 3.1 数据仓库 系统示意图 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信
22、息才能发挥作用,信息才有意义。 而把信息加以整理归纳和重组 ,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。 整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示 : 数据仓库与管理信息系统( DW/MIS) 9 图 1 3.2 四个层次体系结构 数据源 是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于 RDBMS 中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等; 数据的存储与管理 是整个数据仓库系统的核心。数据仓库的真正关键是数
23、据 的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。 数据仓库与管理信息系统( DW/MIS) 10 OLAP 服务器 对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为: ROLAP、 MOLAP 和 HOLAP。 ROLAP 基本数据和聚合数据均
24、存放在 RDBMS 之中; MOLAP 基本数据和聚合数据均存放于多维数据库中; HOLAP 基本数据存放于 RDBMS 之中,聚合数据存放于多维数据库中。 前端工具 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对 OLAP 服务器,报表工具、数据挖掘工具主要针对数据仓库。 第 四 章 数据仓库 的数据采集 4.1 数据仓库处理的部件 图示 图 2 后 台 处理 中间处理 前 台 处理 4.2 后台处理 数据仓库系统的后台处理利用了操作系统的数据存储器,以进入数据仓库内占有活动区域:这个处理包括以下几个部分: 数据处理 为数据仓库收集数据的过程是从当前操作系统开始的。该数据仓库的后台处理需要被分成可管理的几个处理模块。操作系统生成必须处理和输入到数据仓库的事务。在数据仓库系安全处理 用户查询 操作系统数 据存储器 数据的转 换和清理 数据仓库 部门数据中心 多维数据中心