数据仓库的数据质量控制研究---毕业论文.doc

上传人:滴答 文档编号:1273955 上传时间:2019-01-26 格式:DOC 页数:51 大小:426.50KB
下载 相关 举报
数据仓库的数据质量控制研究---毕业论文.doc_第1页
第1页 / 共51页
数据仓库的数据质量控制研究---毕业论文.doc_第2页
第2页 / 共51页
数据仓库的数据质量控制研究---毕业论文.doc_第3页
第3页 / 共51页
数据仓库的数据质量控制研究---毕业论文.doc_第4页
第4页 / 共51页
数据仓库的数据质量控制研究---毕业论文.doc_第5页
第5页 / 共51页
点击查看更多>>
资源描述

1、 本 科 毕 业 论 文 数据仓库的数据质量控制研究 Research on the Data Quality Control of Data warehouse 姓 名: 学 号: 学 院:软件学院 系:软件工程 专 业:软件工程 年 级: 指导教师: 年 月 摘 要 数 据仓库作为支持决策的数据基础和重要手段, 近几年来发展迅速 , 并已成功地应用到金融、电信、制造、零售 等多个行业, 显示出了 强大的生命力。 数据质量是数据仓库中的一个重要概念, 数据质量的高低 直接关系到信息的准确程度 , 进而关系到决策质量的高低 。 因此 , 数据质量是 数据仓库能否成功建立和良好运行的关键所在。

2、随着数据仓库研究和应用的日益广泛和深入,数据质量问题逐渐成为数据仓库建设和实施过程中最重要的问题之一 ,而解决这一问题的关键之一就是对数据进行科学有效的质量控制。 要想使数据仓库服务于企业决策者 科学决策 , 就 必须严格控制好数据仓库的数据质 量。 正确地 定义数据质量的衡量指标 是进行控制的基础 ,合理地 划分数据仓库的数据质量问题 是重点 ,在此 基础上提出数据质量的控制措施是解决问题的 关键。基于这种思考, 本文对数据仓库的 数据 质量控制问题进行了分析和讨论。 首先, 介绍了数据仓库的一些基本理论,包括数据仓库的产生背景 、定义、特征、体系结构、数据模型,为研究数据仓库的数据质量奠定

3、 基础。 其次, 定义了数据质量的衡量指标,分析了可能发生数据质量问题的位置或过程,对数据源的数据质量问题进行了分类,并对这些问题进行了详细地分析。 然后 ,阐述了 数据质量控制的重要性,并提出了一些数据质量的控制措施,以此来解决数据质量问题。 最后, 专门讨论了应用扩展元数据库的方式来控制数据质量,在元数据库中融入质量维度和质量模型,以此来改进数据质量的评价方法 。 关键词: 数据仓库 ; 数据质量; 质量控制 Abstract Data warehouse is the data foundation and an important means of supporting decisio

4、n-making.In recent years,it developed rapidly and has be used successfully by trades of finance,telecom,manufacture,retail and so on.This has shown that it has a strong vitality.Data quality is an important concept of data warehouse,data quality is high or low is related to the accuracy of informati

5、on directly,what is more,it is related to the quality of decision-making.So data quality is the key to whether the data warehouse is builded and runs successfully or not. With the research and application of data warehouse wider and deeper,the problem of data quality has become one of the most impor

6、tant problem in the process of building and executing data warehouse,and one of keys to resolve this problem is the scientific and effective quality control of data.In order to make data warehouse serves decision-makers of enterprise for their scientific decisions,it must control the data quality of

7、 data warehouse strictly. Defining the scale indexs of data quality correctly is the base of control,and classifying the problems of data quality of data warehouse is the important point,and on the base of above, putting forward the control measures is the key to resolve the problem.On the ground of

8、 this opinion,this thesis analyses and discusses the data quality control of data warehouse. First,I introduce some basic theories of data warehouse,including the background of the appeareance,the definition,the feature,the architecture,and the data models of data warehouse,which are the base of res

9、earching the data quality of data warehouse. Next,I define the scale indexs of data quality,analyse the places or processes where the problems of data quality may take place,classify the problems of data quality of data souces,and analyse these problems detailedly.Then,I illuminate the importance of

10、 data quality control,and put forward some control measures of data quality to resolve the problem of data quality.In the end,I discuss specially that controlling data quality with manner of extending metadata database.We can put quality dimension and quality models into metadata database to betterm

11、ent the method of evaluing data quality. Key words: data warehouse; data quality; quality control 目 录 第一章 引言 . 1 1.1 研究背景 . 1 1.2 数据仓库的数据质量现状分析 . 1 1.3 国内外对数据质量的研究现状 . 2 1.3.1 数据质量整体框架及相关模型研究 . 3 1.3.2 数据质量技术手段研究 . 4 1.3.3 数据质量工具研究 . 5 1.4 本文的主要工作 . 5 第二章 数据仓库的一些基本理论 . 7 2.1 数据仓库的产生背景 . 7 2.1.1 在数据库

12、的基础上产生了数据仓库 . 7 2.1.2 数据库与数据仓库的区别 . 7 2.2 数据仓库的定义 . 9 2.3 数据仓库的特征 . 9 2.4 数据仓库的体系结构 . 10 2.5 数据仓库的数据模型 . 13 第三章 数据仓库的数据质量 . 16 3.1 数据质量的衡量指标 . 16 3.2 数据质量问题发生的位置 . 18 3.3 数据源的数据质量问题分类 . 20 3.3.1 单数据源的数据质量问题 . 21 3.3.2 多数据源的数据质量问题 . 23 第四章 数据仓库的数据质量控制 . 25 4.1 数据质量控制的重要性 . 25 4.2 数据质量的控制措施 . 25 4.2.1

13、 对单数据源的数据质量问题进行控制 . 26 4.2.2 对 ETL 过程中的数据质量问题进行控制 . 28 4.2.3 对数据仓库内部 数据 的质量进行 控制 . 33 4.2.4 对数据仓库应用工具和应用系统的质量进行控制 . 33 第五章 应用扩展元数据库的方式控制数据质量 . 35 5.1 元数据的基本概念 . 35 5.2 扩展元数据库 . 35 5.2.1 质量维度 . 36 5.2.2 元数据库中的质量模型 . 37 5.2.3 质量驱动的数据仓库系统设计 . 40 第六 章 总结 与展望 . 41 6.1 总结 . 41 6.2 展望 . 41 参考文献 . 42 致 谢 .

14、43 Contents Chapter 1 Introduction . 1 1.1 Background of Research . 1 1.2 Analysis of Current Situation of Data Quality of Data Warehouse . 1 1.3 Current Situation of Research on the Data Quality . 2 1.3.1 Research on the Whole Frame and Correlative Models of Data Quality. 3 1.3.2 Research on the Te

15、chnical Means of Data Quality . 4 1.3.3 Reaearch on the Tools of Data Quality . 5 1.4 Main Work of this Thesis . 5 Chapter 2 Some Basic Theories of Data Warehouse . 7 2.1 Background of the Appeareance of Data Warehouse. 7 2.1.1 the Appearance of Data Warehouse is on the Foundation of Database. 7 2.1

16、.2 Differences between Database and Data Warehouse . 7 2.2 Definition of Data Warehouse . 9 2.3 Features of Data Warehouse . 9 2.4 Architecture of Data Warehouse . 10 2.5 Data Models of Data Watehouse . 13 Chapter 3 Data Quality of Data Warehouse. 16 3.1 Scale Indexs of Data Quality . 16 3.2 Place o

17、f Data Quality Problem . 18 3.3 Classification of Data Quality Problems of Data Sources. 20 3.3.1 Data Quality Problems of Single Data Source. 21 3.3.2 Data Quality Problems of Multiple Sources . 23 Chapter 4 Data Quality Control of Data Warehouse . 25 4.1 Importance of Data Quality Control . 25 4.2

18、 Control Measures of Data Quality . 25 4.2.1 Control the Data Quality Problems of Single Data Source. 26 4.2.2 Control the Data Quality Problems in ETL Process . 28 4.2.3 Control the Quality of Data in Data Warehouse . 33 4.2.4 Control the Quality of Application Tools and Application Systems of Data

19、 Warehouse . 33 Chapter 5 Control Data Quality with Manner of Extending Metadata Database. 35 5.1 Basic Concept of Metadata . 35 5.2 Extend Metadata Database. 35 5.2.1 Quality Dimension . 36 5.2.2 Quality Model in Metadata Database . 37 5.2.3 Quality-Drive Data Warehouse Design. 40 Chapter 6 Summary

20、 and Prospect . 41 6.1 Summary . 41 6.2 Prospect . 41 References . 42 Acknowledgement . 43 第一章 引言 1 第一章 引言 1.1 研究背景 随着信息社会需求的增长和市场竞争的日益激烈 ,企业对决策科学化的要求也迅速增长。企业中积累了大量数据,其中包括企业 的 内部数据 ( 如企业财务状况、产品销售情况 、库存状况等)和 企业的外部数据 (如同行企业的经营状况、企业产品的市场占 有率等 )。 如何快速地 从 企业的大量数据中提取有用信息、制定科学的 市场策略 和经营决策, 已经成为企业在信息时代的市场竞争

21、中能否取胜的关键所在 。 在 企业的经营发展过程中,企业内部的许多部门分别建立了各自的业务系统。 这些系统之 间相互独立、结构各异、数据标准和数据质量参差不齐,企业的决策者很难从中获取以供科学决策的有价值的信息和知识。 因此, “数据仓库”技术便应运而生且迅速发展起来 ,并在实际应用中发挥了巨大的作用。建立数据仓库是为满足信息时代对信息科学利用的要求,是企业构建决策支持系统的基础,是企业进行科学决策的前提。 在当前市场经济高速发展和商业竞争日益激烈的 经济环 境下,数据仓库是 企业获得竞争优势的关键武器。为了适应新的更为复杂的竞争环境,在其中求 得生存与发展,现代企业必须在 其 原有的数据库的

22、基础上建立数据仓库, 用来分析整个企业的运行状态以及未来的发展趋势,并为 企业的 决策和管理提供支持。 数据仓库的数据质量是数据仓库中的一个重要概念,它也是高质量决策最 为依赖的因素 。因此, 数据质量是关系到数据仓库能否成功建立和良好运行的关键所在。 要想使数据仓库服务于企业决策者进行 科学 、正确的 决策, 就 必须严格控制 好数据仓库的数据质 量,为企业 的决策支持 系统提供正确、准确、一致、完整、 及时、唯一、非冗余 的高质量数据。 数据仓库作为 支持决策分析的数据基础和重要手段,近几年来迅猛 发展,并已成功地应用到金融、 电信、交通运输、制造、零售等众多行业,显示出了广阔的发展前景

23、。通过调查发 现,在对数据仓库研究的大量成果中,对数据仓库的 数据质量控制的研究还不是很多, 因此,研究数据仓库的数据质量 控制,具有 一定的新颖性和 重要的现实意义。 1.2 数据仓库 的数据质量 现状分析 数据仓库的灵魂就是数据,企业的经营状况及市场策略的实施效果均体现在数据上,因数据仓库的数据质量控制研究 2 分类 此, 数据质量的好坏直接影响数据仓库项目的成败。 目前,国内很多企业己经意识到了数据仓库给企业带来的巨大优势和战略意义,纷纷投资建设数据仓库,但是很多投资 巨大的数据仓库项目最终由于低下的数据质量而达不到建设目标。 将数据仓库项目实施过程中的数据质量事件按照各自的特点进行 分

24、类和统计, 能比较清晰和有针对性地 解决 数据 质量问题。 从 大的方面来说 , 数据仓库的数据质量的区分维度有两种 : 一种维度是从质量的引入方来看 :是由 源系统 或者外在原因引起的质量事件,还是由 数据仓库内部原因造成的质量事件 ; 另一种维度是从数据的角度来看 : 是共性的质量问题,还是特性的质量问题。 对于数据质量问题的分类,从 表 1-1 中可以看出,内部的共性问题是难度最低的质量问题,属于这类的问题有 : 数据加工流程的设 计、 SQL 语句的质量等,可以通过对数据仓库内部的质量流程加以控制来 改进这类 问题;难度中等的是外部的共性问题,例如源数据的规范性、空值率、数据关联情况等

25、, 这类质量问题 虽然 不能加以改进,但 可以 进行分析和控制;另外一些难度中等的质量问题是内部的 特性问题,例如数据仓库 模型的设计质量、体系架构的质量等, 这类 质量问题的发现 和 改进的成本是比较高的,而且也难以发现 ; 难度最高的质量问题是外部 的特性 问题,例如源系统故障、源数据中的业务质量缺陷,这类问题随机性高,隐蔽性强,难以发现。 表 1-1 数据质量问题的分类及质量状况 内部 外部 共性 低 中 特性 中 高 1.3 国内外对数据质量的研究现状 国外对数据质量问题的研究起步较早,在数据质量整体框架以及数据质量保证的技术手段和方法等方面都做了许多开创性的研究,在学术上和商业系统产

26、品上都取得 了 较多成果。随着国内信息化建设的快速发展,数据质量问题 越来越受 到关注,对数据质量问题的研究也分类 第一章 引言 3 逐步展开,并取得了一定的成果。下面我 从数据质量整体框架及相关模型研究、数据质量技术手段研究以及数据质量工具 研究 三个方面对国内外 的 研究现状进行阐述。 1 1.3.1 数据质量整体框架及 相关模型研究 数据质量整体框架方面比较具有代表性的研究成果主要包括 : 1. 麻省理工大学 Richard Y.Wang教授领导的 TDQM(Total Data Quality Management)研究小组。其主要 研究 成果包括 : 提出了全面数据质量管理方法 , 包括 : 定义阶段、测量阶段、分 析阶段 以及改进阶段。 提出了 “ 数据产品 ”这个 概念 2。 将数据的加工、存贮、使用与一般工业产品 的制造进行类比,认为 数 据质量控制与一般产品质量控制 过程相似,并对其进行了形式化的描述。 提出 AI

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。