1、 本科 毕业 设计 (论文 ) (二零 届) 联机分析处理在商业智能中的研究与应用 所在学院 专业班级 计算机科学与技术 学生姓名 学号 指导教师 职称 完成日期 年 月 摘要 : 联机分析处理( OLAP)是建立在数据仓库( DW)基础上,由数据分析操作组成、以及时和准确的方式分析商业的过程,它 有利于辅助管理者做出快速准确的决策。本论文研究的是商业智能中的联机分析处理,它是以数据仓库为基础,且利用多维技术实现数据报表的呈现。联机分析处理和数据仓库、数据挖掘( DM)技术综合使用可以构建商业智能系统 ,进而辅助企业经营决策。 关键词 : 联机分析处理;商业智能;数据仓库;多维数据集 OLAP
2、s Research and Application in BI Abstract: The OLAP, based on DW and composed by the data analysis operations, is a process of analyzing business in a timely and accurate way so as to assist managers in make rapid and accurate decisions.This thesis is the study of OLAP in BI. The OLAP, as referred,
3、based on DW, can be used to well present data reports with the help of multi-dimensional technicals.The combined use of OLAP, DW and DM technology helps build BI system, and thereby assist enterprises in making business decisions. Key words: OLAP; BI; DW; Cube 目录 1 引言 . 1 1.1 研究背景和意义 . 1 1.2 国内外研究现状
4、和发展趋势 . 2 1.3 写作目的 . 3 2 需求分析 . 4 2.1 研究的基本内容与拟解决的主要问题 . 4 2.1.1 基本内容 . 4 2.1.2 主要问题 . 4 2.2 预期达到的目标 . 4 2.3 开发环境和工具 . 4 3 概要设计 . 5 3.1 商业智能体系结构图 . 5 3.2 OLAP研究方法及技术路线 . 5 4 详细设计 . 7 4.1 创建数据仓库 . 7 4.2 构建多维立方体 . 12 4.3 生成关系构架 . 16 4.4 Excel报表展示 . 18 5 问题总结 . 20 5.1 问题描述及解决方案 . 20 致 谢 . 错误 !未定义书签。 参考
5、文献资料 . 21 1 1 引言 1.1 研究背景和意义 随着经济的发展,企业对数据的需求不仅仅是数据本身,越来越多的是把数据背后隐藏着的大量信息转换为有利用价值的知识,进而辅助企业经营决策,甚至自动生成商业决策,这就是商业智能。信息技术在商业领域应用中的卓越的成效已显而易见,随着信息化建设的不断发展,越来越多的企业同时运行着不止一个的业务系统,并渐渐积累了大量数据。这些数据被深埋在单独的系统中未加以或难以运用,企业自身好像也被这些系统套着。还有各个系统间的相互交互、兼容和继承又是另一个问题,决策者很难得到一个基于对大量数据进行运算后得到的企业经营运作总体图景。企业迫切需要找到一个突破口,来使
6、数据转化为信息,进而变成有利用价值的知识,从而辅助企业的经营决策。 总的概括起来,可以从下面的四点看出商业智能的产生背景: 1) 企业的 “ 数据监狱 ” 现象 严重 企业同时运行着不止一个的业务系统,并渐渐积累了大量数据 , 这些数据有 成本的 、库存 的 、销售 的、 客服 的 等各方面的 ,可能存储于不同的 数据库、数据仓库、多维数据库 、 数据集市、第三方的应用或其它文件 中 。 因为 传统数据管理方法的缺陷 加上 庞大的数据量,对 于多数 企业来说 ,对于 处理数据的问题 更多的是 大量 的数据冗余 和数据不一致 ,而不是 数据缺乏 问题。这样对 企业的管理 很不利, 也 有损于 信
7、息的有效利用。 2) 建立数据 =资产的新观念 因为目前 多数 大中规模的企业 都有着庞大的 信息 系统,它不仅管理着企业的数据,更像一个信息丰富的组织, 组织的成效有 赖 于 知识 ,但是数据转换为信息,再把信息变成知识 并不是一个简单的过程。商 业智能的本质正是把数据转化为知识,致力于知识 的 发现和挖掘,使企业的数据资产能带来明显的经济效益,减少不确定性因素的影响,使企业取得新的竞争优势 2。 因此, 企业投资 IT 的热点 更多的是 把数据转换为资产的方法和技术。 3) 企业运营模式的变化 电子商务正在改变着全球商务活动的方式, 依靠 电子支付系统、 网上购物、网上拍卖、邮政事业 等
8、科技和事业 的发展和应用 ,越来越多的企业又加入了依靠网络来 经营 的 电子商务模式 。 建立在 Internet 之上的企业经营模式电子商务:电子邮件、电子数据交换、电子支付系统、电子营销等技术的发展和应用 , 为商业智能系统提供了市场和生存环境。 2 4) 数据库和人工智能技术的发展 商业智能的发展也 受益和带动了其他技术的 发展 ,比如 并行处理系统、廉价数据存储、新数据挖掘算法、神经网络技术、人工智能技术、决策支持技术、从大量数据中发现其后潜藏的商业机会等等,使 使用 商业智能 的 企业 , 能以 较低 成本 投资较 高回报率 受益 。 1 商业智能里三个重要的技术:数据仓库( DW)
9、、联机分析处理( OLAP)和数据挖掘( DM)。简单的说就是,建立结构化数据环境的 DW,使用多维数据库和多维分析的 OLAP 和透过数理模式而分析数据的 DM,预测和得出有利于 决策的知识 2。 1.2 国内外研究现状和发展趋势 当同一数据使用不同组织形式的时候,其作用也有所不同。把企业中需要使用的这些数据形式进行分类,一般可以分为两类:操作数据和分析数据。它们的组织形式实际上源于并作用于两种系统:操作型系统和分析型系统。操作型系统处理以传统的数据库为中心进行企业的日常业务处理,分析型系统处理以数据仓库为中心分析数据背后的关联和规律,为企业的决策提供可靠有效的依据。操作型系统根据其特点也称
10、联机事务处理( OLTP),存储操作数据,称为数据库。分析型系统也称联机分析处理( OLAP) ,一般把存储分析数据的数据库称为数据仓库 3。 在很早之前,人们使用数据仓库是 为支持企业决策而特别设计和建立的数据集合 。 数据仓库研究和解决 的是 从数据库中获取信息的问题 3。 数据集市,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库 3。 Bill Inmon 和 Ralph Kimball 一直是商业智能领域中的革新者 。 Bill Inmon 将数据仓库定义为“ 一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合
11、” 4。Inmon 通过 “ 面向 主题 ” 表示应该围绕主题来组织数据仓库中的数据,每个主题区域仅仅包含与该主题相关的信息。数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,应该创建以数据仓库为来源的数据集市 。 Inmon 的方法被归类为 “ 自 上 向 下” 4的方法 。 Kimball说 “ 数据仓库仅仅是构成它的数据集市的联合 ” 5。他认为 “ 可以通过一系列维数相同的数据集市递增地构建数据仓库 ” 5,通过使用 “ 一致的 ” 维,能够共同看到不同数据集市中的信息,这表示它们拥有公共定义的元素 。 Kimball 的方法被归类为 “ 自 下 向上 ” 5的方法 。 从
12、短 期的角度来看, Kimball 的方法 更有优势,它 将提供集成的数据来回答组织迫切的业务问题并且要快于 Inmon 的方法。 Inmon 的方法是只有在构建几个单主题区域之后,集中式的数据仓库才创建数据集市,而 Kimball 认为该方法缺乏灵活性,并且在现在的商业环境中所花时间太长。 但从长期的角度看, Inmon 的方法 更好,数据集市永远不可代替数据仓库。数据集市中的数3 据结构是根据部门的特殊需求而建立的,部门不同其构建的数据集市中的数据结构也不同。试图将任何一个数据集市转变成为数据仓库都不具意义。通常数据集市数据结构,贯穿整个 企业,不可重用,没有灵活性,不能作为调和矛盾的基础
13、,也不能为新出现的未知需求集合提供便利。然而,数据仓库中规范化粒度数据却正好满足所有这些要求。 OLAP 与数据仓库的关系是互补的,现代 OLAP 一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到 OLAP 存储器中供前端分析工具读取。 OLAP 按照其存储器的数据存储格式可以分为关系 OLAP( ROLAP)、多维 OLAP( MOLAP)和混合型 OLAP(HOLAP)三种类型。 ROLAP 就是根据需求将那些使用频率较高或计算了较大的查询事先做 成实视图表存储于关系数据库中以便查询。 MOLAP 将多位数据物理存储于多维立方体结构中。 维的属性值被映射成
14、多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。 HOLAP 就是前两种 结构技术优点的有机结合,能满足用户各种复杂的分析请求。 1.3 写作目的 由于 OLTP 已不能满足终端用户对数据库查询分析的需要, SQL 对大数据库进行的简单查询也不能满足用户分析的需求,用户的决策需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求, 所以研究和发展 OLAP 就显得特别有 必要。 商业智能里数据分析的方法很多,时下 使用最多 的是 OLAP6。利用这种方法,可以从不同角度和维度抽取并观察数据。根据 OLAP 产品的实际应用情况和用户对 OLA
15、P 产品的需求,人们提出了一种对 OLAP 更简单明确的定义,即共享多维信息的快速分析, OLAP 主要有以下一些特点:快速性 、 可分析性 、 多维性 、 信息性 7。 对于企业来说,需要快速准确的决策,就需要部署商业智能,而 OLAP 专门设计用于处理支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以应分析人员要求快速、灵活地进行大数据量的复杂查询处理 ,并且以一种直观易懂的形式将查询结果提供给决策人员。 本文以嘉兴市的麦包包企业的数据为例,以构建数据仓库为基础来构建多维立方体 8和展现发货订单区域报表,分析麦包包企业的发货订单区域情况,查看发货地的发货订单是否合理。麦包包企
16、业的发货地有广州和嘉兴,各自有各自不同的仓库。其中广州主要负责福建、广东等 8 个省份的发货,嘉兴主要负责广州发货地以外的省份发货。希望得到的报表是发货地的发货总数和发货金额汇总报表,查看发货地的发货是否合理,比如查看广州负责了广州和嘉兴发货地的发货总数,看看广州负责嘉兴发货地的发货总量 是否超过广州负责广州发货地的发 货量,若超过则发4 货不合理,则反馈给管理者一个需要修改就该去若没有超过则合理。需要使用的数据库为Mbbdata .mdb,里面需要建立 6张数据表,分别是 dim_area_warehouse、 dim_goods、 dim_province、dim_order_status
17、、 dim_shop。其中 dim_area_warehouse是仓库数据, dim_goods是产品数据,dim_province是省份数据, dim_order_status是订单状态数据, dim_shop是店铺数据。 2 需求分析 2.1 研究的基本内容与拟解决的主要问题 2.1.1 基本内容 首先整合数据 ,并 使用 SQL Server 2005 Integration Services( SSIS) 来构建数据仓库。在已建立好数据仓库的基础上 , 使用 SQL Server 2005 Analysis Service( SSAS) 根据度量值和维度来构建多维立方体。使用报表展现工
18、具实现 OLAP 数据的展现和分析。 2.1.2 主要问题 在构建数据仓库时,如何建立数据仓库的数据源、如何进行数据清洗;在构建多维立方体时,如何选择维度 和度量;在生成关系构架时,如何选择数据源;在报表展示时,如何选取显示字段。 2.2 预期达到的目标 熟悉联机分析处理技术的概念,利用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总,用联机分析处理技术对这些数据迅速进行评价和处理,将复杂的分析查询结果以报表的形式快速地反馈给管理者,供管理者参考并做出合理的决策,实现在商业智能上的应用。 2.3 开发环境和工具 本文将使用 SQL Server 2005 中的 SQL Server 2
19、005 Integration Services 服务、 SQL Server 2005 Analysis Services 服务 和 Microsoft office 2007 Excel 等工具。使用 SQL Server 2005 Integration Services( SSIS) 来构建数据仓库,使用 SQL Server 2005 Analysis Services 构建多维立方体、生成关系构架,利用 Microsoft office 2007 Excel 以报表的形式查看数据分析和查询结果。 5 3 概要设计 3.1 商业智能体系结构图 数 据 抽 取数 据 加 载数 据 转
20、换 清 洗采 用 星 型 模 式数 据 关 联 关 系需 求 为 主按 照 分 析 主 题按 照 星 型 模 式S S I S : 数 据 抽 取与 整 合S Q L S e r v e r 2 0 0 8 : 数 据 仓 库S S A S : 多 维 立 方体 构 建S S R S : 报 表 展 现E T LD WO L A PR e p o r t数 据 抽 取数 据 加 载数 据 转 换 清 洗采 用 星 型 模 式数 据 关 联 关 系需 求 为 主按 照 分 析 主 题按 照 星 型 模 式: 数 据 抽 取与 整 合: 数 据 仓 库: 多 维 立 方体 构 建: 报 表 展 现
21、数 据 抽 取数 据 加 载数 据 转 换 清 洗采 用 星 型 模 式数 据 关 联 关 系需 求 为 主按 照 分 析 主 题按 照 星 型 模 式: 数 据 抽 取与 整 合: 数 据 仓 库: 多 维 立 方体 构 建: 报 表 展 现数 据 抽 取数 据 加 载数 据 转 换 清 洗采 用 星 型 模 式数 据 关 联 关 系需 求 为 主按 照 分 析 主 题按 照 星 型 模 式: 数 据 抽 取与 整 合5 : 数 据 仓 库: 多 维 立 方体 构 建: 报 表 展 现如图 3-1 商业智能体系结构 如图 3-1 所示,商业智能解决方案可以简单地描述为:将已有的数据库数据经过
22、数据抽取和整合装载到数据仓库中,通过构建多维立方体和选取需要的维度和度量值来构建 OLAP 并分析数据,以报表的形式展现供给管理者参考并做出有效决策 9。其中, OLAP 在商业智能中扮演的数据分析的角色必不可少。 3.2 OLAP 研究方法及技术路线 在之前提出了数据仓库和数据集市的概念后, 建立了两种解决数据集市和数据仓库的方案。由 Bill Inmon 和 Ralph Kimball 两大专家提出,一种是 由首先构建数据仓库,然后衍生出数据集市的“自上而下”方法;另一种是首先构建数据集市,然后构建数据仓库的“自下而上”方法。 这两种方案各自都有特点和优缺点,第一种方案适用于某个机构各个部
23、门均有健全的信息系统,在构建数据仓库时,通过数据的抽取、转换、加载等过程形成数据一致的数据仓库;第二种方案适用某机构信息化不完善,正在逐步建立信息系统,这样就需要按部门建立数据统计和分析的系统,最终形成数据仓库,以供高层分析决策之用。本论文想基于已有健全的信息系统机构的研究,因此选择第一种方案。 OLAP 与数据仓库的关系是互补的 ,现代 OLAP 系统一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到 OLAP 存储器中供前端分析工具读取。 数据仓库是建立关系 OLAP 数据存储区的行业标准方法,其出发点是维度和度量值概念,其中维度表示数据的分类或“ Grou
24、p By”,度量值是要汇总的值 10。应根据企业需求决定数据仓库该包含哪些维度和度量值。 6 星形架构是组成数据仓库的基本要素,它的名称来源于其结构:它包含一个位于中央的事实表和多个维度表,后者在前者周围,就像星形的顶点 11。每个维度表都通过外间关系连接到事实表。事实表包含两种类型的列:关联星形架构中维度表的键和感兴趣的度量值。每个维度表都由一个主键和一个或多个属性组成,前者用于关联到事实表,后者用于对该维度的数据分类。如图3-2 所示,就是本论文中构建的星型架构。 如图 3-2 发货订单区域分析的星型架构 OLAP 系统按照其存储器的数据存储格式可以分为关系 OLAP( ROLAP)、多维
25、 OLAP( MOLAP)和混合型 OLAP(HOLAP)三种类型。 MOLAP 是以多维立方体的结构来组织数据,对于分析系统通常需要向上和向下钻取数据生成报表,多维立方体在钻取方面有很大的 性能优势,所以本论文采用 MOLAP 的方法。 SQL Server 2005 Analysis Services 是建立在数据仓库概念的基础之上的 , 但以多维格式表示数据 , 并不像关系数据库那样以二维格式表示数据。 Analysis Services 在选取一组关系数据时,查询使用行和列坐标标识值,而多维数据库依赖于从每维选择一项或多项来标识要返回的值 12。该返回的结果集可根据查询所指定的方式沿多个轴进行组织。 统一维度模型( UDM)用于定义多维数据库的结构。 UDM 的核心是一个数据源视图,它指定了哪些关系表将向 Analysis Services 提供数据以及这些表之间的关系。多维数据集将设计过程中的元素组合在一起:在一个容器合并数据源、数据源视图、维度和计算,并将它们提供给用户。从某种意义上说,多维数据集就是 UDM。