数据仓库的数据质量控制研究---开题报告.doc

上传人:滴答 文档编号:1273956 上传时间:2019-01-26 格式:DOC 页数:4 大小:86.50KB
下载 相关 举报
数据仓库的数据质量控制研究---开题报告.doc_第1页
第1页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、厦门大学软件学院毕业设计(论文)开题报告 学生姓名 班级 学号 指导教师姓 名 职称 教授 所在单位 厦门大学软件学院 毕业设计(论文)题 目 数据仓库的数据质量控制研究 毕业设计(论文)的 目标: 1. 了解数据仓库目前的发展状况和发展趋势, 了解数据仓库的数据质量现状,了解国内外对数据仓库的数据质量的研究现状, 了解研究数据仓库的数据质量控制所具有的 现实意义。 2. 掌握数据库方面的理论知识,了解在数据库中可能会存在哪些数据质量问题 ,并 对 这些问题有全面、深刻的 理解 , 了解针对不同 的问题,可以采取哪些有效的解决方法 。 3. 掌握数据仓库方面的理论知识,并具有一定的深度和广度,

2、尤其要 全面、系统地 掌握有关数据仓库的数据质量 方面的知识,深入了解已有的数据质量控制方法以及它们 在实际应用中的成效。 4. 论文能 对数据仓库的数据质量问题有侧重点地进行深入地分析、研究和探讨,并有独到的见解。 5. 论文能综合 应 用各方面的知识,并从不同的角度提出数据质量的多种控制措施,以此来解决数据质量问题。这些措施应具有一定的新颖性和现实意义。 6. 论文结构合理,逻辑性强,层次清楚,论据充分。 实现方法: 一研究步骤 1. 收集、阅读 大量文献资料,包括国内外对数据库、数据仓库的理论研究 资料 ,尤其是 关于 数据仓库的数据质量方面的理论研究 资料,还有国内外对数据库、数据仓库

3、的实际应用成果 (即已成功建设并投入使用的数据库系统、数据仓库系统和决策支持系统) 的资料。 这些文献资料 包括 专著、期刊 文章 、学位论文和 电子文献 等 。 注意 多收集、阅读一些 最新的研究和应用成果的资料, 紧跟时代的步伐。在收集、阅读 的 过程中,对资料进行筛选、分类整理, 并加以 思考 和理解 , 以此来启发思路 。 2. 接触一些已投入使用的数据库系统,对它们进行实际操作,发现它们中存在的数据质量问题 ,并对这些问题进行全面、深入地分析和研究,综合应 用自己所掌握的 有关知识, 思考 解决这些问题的方法 ,并通过实际操作 验证方法的正确性和有效性。 3. 在掌握了大量 的 相关

4、知识后,确定 要 研究的 具体问题 和 内容 , 决定采用哪些研究方法,确定合理的、层次分明的论文 框架结构。 4. 开始对自己所要研究的 内容 按序 进行全面、系统、深入地研究、分析和探讨 , 组织研究成果, 按照框架结构来 撰写论文 。 在研究的过程中 , 不断查阅相关 文献 资料 ,在已有的研究成果的基础上,综合应 用各方面的知识 和多种 研究方法 , 得出关于数据仓库的数据质量问题的 正确的、 独到的、有价值的 研究结论,并从多个方面 提出 有效的、 新颖的、具有现实意义的 数据质量的多种控制措施,以此来解决数 据质量问题。 二 研究的主要内容 本文分为五 个部分来研究数据仓库的数据质

5、量控制 。 第一部分 为引言,包括三个部分,这三个部分是: 1. 论文的研究背景 。 2. 数据仓库的数据质量现状分析 。 3. 从三个方面介绍国内外对数据质量的研究现状,这三个方面是 : ( 1)数据质量整体框架和相关模型的研究 。 ( 2)数 据质量技术手段的研究 。 ( 3)数据质量工具的研究 。 第二部分 从五个方面介绍数据仓库的一些基本理论, 为研究数据仓库的数据质量奠定基础。 这五个方面是: 1. 数据仓库的产生背景 ,包括两个部分,这两个部分是 : ( 1)在数据库的基础上产生了数据仓库 。 ( 2)数据库与数据仓库的区别 。 2. 数据仓库的定义 。 3. 数据仓库 的特征。

6、主要有四 个特征 :面向主题性、集成性、相对稳定、随时间不断变化。 4. 数据仓库的体系结构 。体系结构主要有七个部分:数据源、数据准备区、元数据库、数据仓库数据库、应用工具、管理工具、数据仓库的用户。 5. 数据 仓库 的数据模 型 。主要有三级数据模型:概念模型、逻辑模型、物理模型。 第三部分 是 本文研究的重点之一, 从三个方面 深入 分析数据仓库的数据质量问题,这三个方面是: 1. 定义 数据质量的衡量指标 。 它是考察数据质量状况的主要参考 。正确地定义数据质量的衡量指标 是对数据质量进行控制的基础。 2. 分析可能发生数据质量问题的位置或过程 。 3. 从两个角度 对数据源的数据质

7、量问题进行分 类,并对这些问题进行详细地分析。 数据源的数据质量是数据仓库的数据质量的一个主要方面。合理地划分数据源的数据质量问题是对数据质量进行控制的重点。 这两个角度是: ( 1)单数据源的数 据质量问题。 ( 2)多数据源的数据质量问题。 第四部分研究数据仓库的数据质量控制,是本文研究的又一个重点。包括两个部分 , 这两个部分是: 1. 阐述 数据质量控制的重要性。 2. 从四个方面提出 一些数据质量的控制措施,以此来解决数据质量问题。这是解决数据质量 问题 的关键所在。这四个方面是: ( 1)对单数据源的 数据质量问题进行控制 。 初步思路是从两个方面来进行质量控制:一是保证数据录入时

8、的数据质量 ,二是清理数据源中已有的历史数据。 分析数据清理的步骤,并详细 分析 单数据源中孤立点的检测 方法。 ( 2) 对 ETL 过程中的数据质量问题进行控 制 。 初步思路是从两个方面来进行质量控制:一是 确保 ETL 过程的正确性,重点在确保转换过程的正确性;二是 选择合适的 ETL 工具。 将三大主流 ETL 工具进行比较 , 以便在实际的数据仓库项目中,能够根据项目自身的特点选择合适的 ETL 工具 。 ( 3) 对数据仓库内部数据的质量进行控制。 ( 4)对数据仓库应用工具和应用系统的质量进行控制。 第五部分 讨论应用扩展元数据库的方式来控制数据质量,这种方式具有一定的新颖性。

9、包括两个部分,这两个部分是: 1. 从三个方面介绍 元数据的基本概念,以此显示出元数据的重要性。这三个方面是:元数据的定义、元数据包含的主要内容、元数据的用途。 2. 全面、详细地分析扩展元数据库这种控制数据质量的方式。它的主要思想是:在元数据库中融入质量维度和质量模型,以此来改进数据质量的评价方法,还可将质量模型用于数据的 ETL 过程和质量驱动的数据仓库系统设计。 从三个方面来进行分析,这三个方面是: ( 1)质量维度。初步思路是:首先介绍 与数据仓库相关的三类人员 设计开发人员、数据仓库管理员、决策者;然后给出 由上述三类人员所组织而成的质量维度的主 要内容。 ( 2)元数据库中的质量模

10、型。以图的方式给出质量模型, 分析它的主要思想、工作过程和作用。 ( 3)简要介绍 将质量模型用于 质量驱动的 数据仓库系统设计。 三主要参考文献 1. Building the Data Warehouse, William H Inmon, John Wiley & Sons 出版社 ,2003 年 2. Identification of outliers, Hawkins D M, Chapman and Hall 出版社, 1980 年 3. 数据仓库项目管理,锡德 阿德尔曼等著,薛宇等译,清华大学出版社, 2003年 4. 数据清理及其在数据仓库中的应用, 庄晓青、徐立臻、 董逸生

11、等,东南大学出版社, 2006 年 5. Framework for Analysis of Data Quality Research, Richard Y.Wang、 Veda C.Storey、 Christopher P.Fifth A, IEEE Transactions on Knowledge and Data Engineering, 1995 年第 4 期 6. AIMQ:A Methodology for Information Quality Assessment, Yang W.Lee、 Diane M.Strong、 Beverly K.Kahn、 Richard Y

12、.Wang, Information & Management category:Research, 2001 年 7. Anchoring Data Quality Dimensions in Ontological Foundations, Yair Wand、Richard Y.Wang, Communications of the ACM, 1996 年第 1 期 8. Architecture and Quality in Data Warehouse:An Extended Repository Approach,Jarke M、 Jeusfeld M、 Quix C 等 , In

13、formation Systems, 1999 年第 3 期 9. 一个可扩展的数据清洗系统,郭志慰、俞荣华、周傲英等, 计算机工程 ,2003 年第 3 期 10. 数据质量评估方法研究,杨青云、赵培英、杨冬青、唐世渭、童云海,计算机工 程 与应用, 2004 年 11. 数据仓库中数据质量若干问题的研究,杜永明,福建电脑, 2003 年第 1 期 12. 应用扩展元数据库方式解决数据仓库质量问题 , 谢茂龙 ,计算机工程与应用,2002 年第 18 期 13. 构造数据仓库系统的元数据 , 廖林,于立刚, 计算机工程与应用, 2001 年第 16 期 14. 电信企业数据仓库数据质量的研究

14、与应用,方智,国防科学技术大学, 2006年 15. 三 大 模 型 架 起 数 据 仓 库 大 厦 , 付红玲 ,http:/ 2007 年 16. 三 大 主 流 ETL 工 具 选 型 , 刘 庆 ,http:/ ,2006 年 时间进度安排: 2008 年 11 月 17 日 2008 年 12 月 26 日 理解 主要 任务, 收 集、 阅读大量 相关 文献资料, 对资料进行筛选、分类整理,并加以思考和理 解,增加知识储备。对一些已投入使用的数据库系统进行实际操作,发现问题,分析问题,并解决问题。 2008 年 12 月 27 日 2008 年 12 月 31 日 确定要研究的具体问

15、题和内容 , 决定采用哪些研究方法。 2009 年 1 月 1 日 2009 年 1 月 12 日 拟定论文框架结构,征求导师意见后,在导师的指导下修改 、 完善,并最终确定 ,完成 开题报告 并提交 。 2009 年 1 月 13 日 2009 年 3 月 20 日 进一步收集、阅读文献资料,对所要研究 的内容按序进行研究,组织研究成果,按照框架结构撰写论文,完成 中期检查报告并提交。 2009 年 3 月 21 日 2009 年 5 月 20 日 继续进行研究,并撰写论文,完成论文初稿并提交。 2009 年 5 月 21 日 -2009 年 6 月 10 日 在导师的指导下修改初稿,定稿,答辩准备,论文答辩。 指导教师审核意见: 指导教师签名: 年 月 日

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。