联机分析处理在商业智能中的研究与应用【开题报告】.doc

上传人:一*** 文档编号:55526 上传时间:2018-05-30 格式:DOC 页数:6 大小:30KB
下载 相关 举报
联机分析处理在商业智能中的研究与应用【开题报告】.doc_第1页
第1页 / 共6页
联机分析处理在商业智能中的研究与应用【开题报告】.doc_第2页
第2页 / 共6页
联机分析处理在商业智能中的研究与应用【开题报告】.doc_第3页
第3页 / 共6页
联机分析处理在商业智能中的研究与应用【开题报告】.doc_第4页
第4页 / 共6页
联机分析处理在商业智能中的研究与应用【开题报告】.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、毕业设计 开题报告 计算机科学与技术 联机分析处理在商业智能中的研究与应用 一、选题的背景、意义 1 历史背景 商业智能的产生背景 : 1) 企业的数据监狱 ( Data Jail) 现象 ; 1 2) 数据 =资产新企业观念的建立 ; 2 3) 企业运营模式的变化 ; 4) 数据库和人工智能技术的发展 。 3 商业智能里数据分析的方法很多,时下最时兴的是 OLAP( 联机 分析处理)。利用这种方法,可以从不同角度和维度抽取并观察数据。根据 OLAP产品的实际应用情况和用户对 OLAP产品的需求,人们提出了一种对 OLAP更简单明确的定义,即共享多维信息的快速 分析, OLAP主要有以下一些特

2、点:快速性 , 可分析性 , 多维性 , 信息性 。 4 2 国内外研究现状和发展趋势 在很早之前,人们使用数据仓库是 为支持企业决策而特别设计和建立的数据集合 。 数据仓库研究和解决从数据库中获取信息的问题。 数据集市 5,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。 Bill Inmon 和 Ralph Kimball 一直是商业智能领域中的革新者 。 Bill Inmon 将数据仓库定义为 “ 一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过 程的数据集合 ” 6。 Inmon 通过 “ 面向主题 ” 表示应该围绕主题来

3、组织数据仓库中的数据,每个主题区域仅仅包含与该主题相关的信息。数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,应该创建以数据仓库为来源的数据集市 。 Inmon 的方法被归类为 “ 自上 向 下” 的方法 。 Ralph Kimball 说 “ 数据仓库仅仅是构成它的数据集市的联合 ” 7。他认为 “ 可以通过一系列维数相同的数据集市递增地构建数据仓库 ” 7,通过使用 “ 一致的 ”维,能够共同看到不同数据集市中的信息,这表示它们拥有公共定义的元素 。 Kimball 的方法被归类为 “ 自 下 向上 ” 的方法 。 从短期的角度来看, Kimbal 的方法 更有优势,它 将提

4、供集成的数据来回答组织迫切的业务问题并且要快于 Inmon 的方法。 Inmon的方法是只有在构建几个单主题区域之后,集中式的数据仓库才创建数据集市,而 Kimbal 认为该方法缺乏灵活性,并且在现在的商业环境中所花时间太长。 但从长期的角度看, Inmon的方法 更好,数据集市永远不可代替数据仓库。数据集市中的数据结构是根据部门的特殊需求而建立的,部门不同其构建的数据集市中的数据结构也不同。试图将任何一个数据集市转变成为数据仓库都不 具意义。通常数据集市数据结构,贯穿整个企业,不可重用,没有灵活性,不能作为调和矛盾的基础,也不能为新出现的未知需求集合提供便利。然而,数据仓库中规范化粒度数据却

5、正好满足所有这些要求。 OLAP 与数据仓库的关系是互补的 8,现代 的 OLAP 系统一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到 OLAP 存储器中供前端分析工具读取。 OLAP系统按照其存储器的数据存储格式可以分为关系 OLAP( ROLAP)、多维 OLAP( MOLAP)和混合型 OLAP(HOLAP)三种类型。 9 1) ROLAP ROLAP 将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批实视图作为表存储在关系数据库中。不必要将每一个 SQL查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图

6、。对每个针对 OLAP服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。 ROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟 OLAP。 10 2) MOLAP MOLAP 将 OLAP 分析所用到的多维数据物理上存储为多维数组的形式,形成“立方 体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于 MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理 OLAP。 3) HOLAP 由于 MOLAP 和 ROLAP 有着各自的优点和缺点 ,且它们的结构迥然不同,这给分

7、析人员设计 OLAP结构提出了难题。为此一个新的 OLAP结构 混合型 OLAP( HOLAP)被提出,它能把MOLAP和 ROLAP两种结构的优点结合起来。迄今为止,对 HOLAP还没有一个正式的定义。但很明显, HOLAP结构不应该是 MOLAP与 ROLAP结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。 11 仿照用户的多角度思考模式,联机分析处理有三种不同的实现方法: 1) 关系型联机分析处理 (ROLAP) 2) 多维联机分析处理 (MOLAP) 3) 前端展示联机分析处理 (Desktop OLAP)12 二、研究的基本内容与拟解决的主要问题 1

8、基本内容 首先整合数据 13, 并使用 SQL Server 2008数据库来构建数据仓库。把度量值数据按照维度组织数据来构建多维立方体 , 使用 SQL Server 2008 Analysis Service构建 OLAP服务器。利用工具实现从多个角度和不同层次来查看数据展现多为立方体。使用报表展现工具实现OLAP数据的展现和分析。为了满足更高的数据分析需求,使用 SQL Server 2008的数据分析功能,采用合适的算法实现不同的分析和决策功能。 2 主要问题 1) 数据抽取:如何增量抽取,不影响原系统性能的抽取 2) 数据转换:脏数据的清洗 3) 维度的处理:区分渐变维 4) 数据挖

9、掘算法的选择:根据具体情况选择不同的数据算法 14 三、研究的方法与技术路线、研究难点,预期达到的目标 1 研究方法及技术路线 在很早之前,提出 了数据仓库和数据集市的概念, 也建立了两种解决数据集市和数据仓库的方案。 由 Bill Inmon 和 Ralph Kimball 两大专家提出,一种是由首先构建数据仓库,然后衍生出数据集市的“自上而下”方法;另一种是首先构建数据集市,然后构建数据仓库的“自下而上”方法。 这两种方案各自都有特点和优缺点,第一种方案适用于某个机构各个部门均有健全的信息系统,在构建数据仓库时,通过数据的抽取、转换、加载等过程形成数据一致的数据仓库;第二种方案适用某机构信

10、息化不完善,正在逐步建立信息系统,这样就需要按部门建立数据统计和分析的系 统,最终形成数据仓库,以供高层分析决策之用。本论文想基于已有健全的信息系统机构的研究,因此选择第一种方案。 OLAP与数据仓库的关系是互补的,现代 的 OLAP 系统一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到 OLAP 存储器中供前端分析工具读取。 OLAP系统按照其存储器的数据存储格式可以分为关系 OLAP( ROLAP)、多维 OLAP( MOLAP)和混合型 OLAP(HOLAP)三种类型。 仿照用户的多角度思考模式,联机分析处理有三种不同的实现方法: 关系型联机分析处理 (

11、ROLAP), 多维联机分析处理 (MOLAP), 前端展示联机分析处理 (Desktop OLAP)。 MOLAP是以多维立方体的结构来组织数据,对于分析系统通常需要向上和向下钻取数据生成报表,多维立方体在钻取方面有很大的性能优势,所以本论文采用MOLAP的方法。 2 研究难点 在整合数据并建立数据仓库后,在数据抽取过程中,在不影响原系统性能的情况下,如何增量抽取,如何清洗数据转换中的脏数据;构建多为立方体后,在维度处理时,如何区分渐变维;选择数据挖掘算法时,如何根据具体情况选择不同的数据算法。 3 预期达到目标 熟悉联机分析处理技术的 概念,利用多维数据集和数据聚集技术对数据仓库中的数据进

12、行组织和汇总,用联机分析和合适的数据挖掘工具对这些数据迅速进行评价和处理,将复杂的分析查询结果快速地返回管理者,供管理者参考并做出合理的决策,实现在商业智能 15上的应用。 四、论文详细工作进度和安排 第七学期第 10周至第 18周( 2011年 01月 06日前):文献检索和资料收集,完成毕业论文(设计)文献综述、开题报告和外文翻译; 第八学期 第 1周 至第 3周( 2011年 03月 11日前):撰写论文提纲,完成毕业论文(设计)初稿、需求分析和概要设计; 第八学期 第 4周 至第 12周( 2011年 05月 13日前):详细设计、系统调试、和毕业论文(设计)完成定稿; 第八学期第 1

13、3周( 2011年 05月 20日前):完成应用软件系统的设计和毕业论文(设计)送指导老师和评阅老师评阅,准备答辩; 第八学期第 14周:参加毕业论文(设计)答辩。 五、主要参考文献: 1 AMT研究院 商业智能的发展及核心支撑技术(一) 计算机世界网 2005-01-04 2 张维迎主编 ,张俊妮编著著数据挖掘与应用 Data mining and its application北京大学出版社 2009 3 陈志泊等 著数据仓库与数据挖掘清华大学出版社 2009 4 吕晓玲等 著数据挖掘方法与应用中国人民大学出版社 2009 5 王丽珍等 著数据仓库与数据挖掘原理及应用科学出版社 2009

14、6 (美 )William H.Inmon 著 王志海等 译数据仓库机械工业出版社 2006 7 林杰斌等 著数据挖掘与 OLAP理论与实务 专著 清华大学出版社 2003 8 邵峰晶等 著数据挖掘原理与算法科学出版社 2009 9 Theodoros Chrysafis On-Line Analytical Processing Department of Computer Science CITY Liberal Studies 2007 10 (美 )Paulraj Ponniah 著段云峰等 译数据仓库基础电子工业出版社 2004 11 谢邦昌等 著从数据采集到数据挖掘 From cati to datamining中国统计出版社 2009 12 姚家奕编著数据仓库与数据挖掘技术原理及应用电子工业出版社 2009 13 朱 德利 著 SQL Server 2005 数据挖掘与商业智能完全解决方案电子工业出版社 2007 14 Marc M. VAN HULLE Data Mining K.U.Leuven 2006 15 李一军等 著商务智能高等教育出版社 2009

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 开题报告

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。