1、附 件 厦门大学软件学院毕业设计(论文)开题报告 学生姓名 班级 学号 指导教师姓 名 职称 所在单位 厦门大学软件学院 毕业设计(论文)题 目 数据仓库中的数据质量探究 毕业设计(论文)的 目标: 面向事务处理的强大信息系统 (OLTP)已十分常见,它们使全球各地的企业拉开了档次 ,如果企业需要在行业中领先,他们就需要能够重新发现和应用现有信息的分析型系统 (OLAP)。 数据仓库就是一种面向分析的信息系统。 数据仓库( Data Warehouse)是一个面向主题的( Subject Oriented)、集成的( Integrate)、相对稳定的( Non-Volatile)、反映历史变化
2、( Time Variant)的数据集合,用于支持管理决策。 随着计算机技术的发展,尤其是分布式技术的发展,数据仓库在我国有着广阔的发展空间和良好的发展前景。 目前,数据 仓库在我国广泛应用于银行业,电信业,并迅速向其他行业领域发展。 在数据仓库的相关研究中,元数据( Metadata)和数据质量( Data Quality)是最重要的两个研究方向。其中, 数据质量意味着 数据的 准确性 、 域完整性 、 数据类型 、 一致性 、 冗余性 、 完整性 、 符合商业规则 、 清晰 、 时效性 、 有用性 以及符合数据完整性规则 。数据质量也是数据仓库开发和使用过程中最大的挑战。 数据质量低劣 造
3、成的损失包括企业 错误的决定 , 失去的商业机会 ,系统因为额外的数据清洗而带来的额外开销, 冗余数据占用的资源 , 不一致的报表 以及 每次发现错误数据而进行修改所耗费的时间和精力 等。 本课题的目标在于对数据质量进行深入广泛的研究,在国内外数据质量研究成果的基础上,提出建设性的新观点新方法,并且结合实际案例提出可行的实施方案。 实现方法: 1 大量阅读国内外有关数据质量研究的文献(中英文文献各 50 篇左右)。 2 在深刻理解研究文献的基础上,根据自己的理解提出新的观点或者解决方案。 3 结合 Oracle, SQL Server 2008,Teradata, DB2 等开发工具,提出上述
4、新观点或解决方案在实际案例中的应用。 附 件 时间进度安排: 第一阶段: 2009 年 1 月 27 日 - 2009 年 3 月 1 日 收集资料, 阅读数据质量的中英文文献, 确定 具体研究的方向及内容。 第二阶段: 2009 年 3 月 2 日 - 2009 年 3 月 5 日 征求导师意见, 同时 作出修正和改进 。 第三阶段: 2009 年 3 月 6 日 -2007 年 4 月 6 日 进一步学习相关的 知识 , 大量阅读文献,开始初步接触和熟悉市面上主流的数据仓库解决方案(例如 Teradata 解决方案)和数据质量工具。 第四阶段: 2009 年 4 月 7 日 - 2009
5、年 4 月 20 日 概括总结对于数据质量的研究,适当提出自己的认识和看法。 第五阶段: 2009 年 4 月 21 日 - 2009 年 5 月 11 日 研究数据质量在实际案例中的具体实施。 第六阶段: 2009 年 5 月 12 日 -2009 年 6 月 1 日 撰写 毕业论文, 并在导师指导下不断改进和完善。 第七阶段: 2009 年 6 月 2 日 2009 年 6 月 7 日 准备毕业答辩。 指导教师审核意见: 校内指导教师签名: 2009 年 月 日 附 件 厦门大学软件学院毕业设计(论文) 中期检查 报告 学生姓名 班级 学号 校内指导教师姓名 职称 教授 所在单位 厦门大学
6、软件学院 毕业设计(论文)题 目 基于数据仓库的企业数据质量控制 毕业设计(论文)的 目标和主要任务: 研究 目标: 确保基于数据仓库的企业数据质量是一项非常困难的工作,其原因来自于多个方面。首先,数据源的组成具有不确定性。数据可能来自原始 OLTP 系统,外部系统, Excel 电子表格甚至是纸制表格中。同时,数据质量问题经常被赋予低优先级。如同计算机安全问题一样,尽管保证数据质量得到了越来越广泛的关注和认可,但事实上几乎没有人把它列为高优先级的企业事务。另外,由于数据需要整合在一个特定的平台上(如数据仓库),那么就需要有大量的措施来处理数据间的不一致性。此外,如何为企业数据质量选择一个合适
7、的级别也是一个棘手的问题。固然 IT 人员希望企业的所有数据在任何一种情况下都是完美的,但显然这不可能达到。“适于使用”意味着数据质量的合适级别依赖于特定的环境。当不同的用户有着不同需求的时候,决定 数据质量需求就变得十分困难。 现今,数据质量相关的研究人员和从业者已经对数据质量进行了广泛而深入的研究,并且取得了可观的成果。然而,业界仍然缺少一套关于如何控制基于数据仓库的企业数据质量的完整而富有实践意义的方法学。 本课题 的 研究 目标是 在以往研究成果的基础上,总结 开发 这样一套方法学,旨在为企业 IT 人员从基于数据仓库的企业数据质量的各个方面提供具有借鉴意义的指导。 主要任务: 1.
8、熟练掌握数据仓库的各种相关知识; 2. 深入了解数据质量 在数据源和 数据仓库中的内涵,仔细钻研总体数据质量管理 (Total Data Quality Management)方法学; 3. 学习在 TDQM 各阶段可能会用到的数据质量领域相关技术; 4. 寻找实际数据进行案例分析; 5. 在能够对 TDQM 运用自如和充分了解周边技术,同时具有自己的创新思想的基础上,开发完整的基于数据仓库的 企业 数据质量控制理论体系。 已经完成毕业设计(论文)任务的情况 : 1. 仔细钻研了 Oracle 8 数据仓库构建实用指南一书,对数据仓库项 附 件 目的各个方面,包括人员配备,需求分析,数据建模
9、, ROLAP 与 MOLAP等等 ,从 了解到熟悉。 2. 通过广泛阅读英文文献 了解了数据质量的内涵与 存在的 研究挑战。 3. 对总体数据质量管理 (TDQM)理论进行了初步了解 。 存在的问题和困难(包括需要学院协助解决的问题和困难): 在实际参与到一个数据仓库 项目之前,或者说在亲自操作 Teradata, Oracle 这样的整体数据仓库解决方案提供商 的产品之前,纯理论的知识理解起来相当困难 。我查阅 的大多是英文文献,语言障碍加上对实践的不熟悉有时候令我举步维艰,甚至几天才能够读完而不是完全读懂一篇论文。这也是我决定暂时放下手头的数据质量研究工作,而去研究数据仓库的一个主要原因
10、。我精读了 Oracle 8 数据仓库构建实用指南一书,这本书对我来说如同醍醐灌顶,读完的那一刻,我甚至觉得自己已经 准备好在任何时刻 投入某一个数据仓库项目了。 然而,现在仅仅是在我脑海中形成了一个数据仓库,我更希望的是 能够有机会接触到真正的数据仓库项目。 指导教师审核意见: 校内指导教师签名: 2009 年 月 日 学院检查组意见: 学院检查组组长(签章): 2009 年 月 日 附 件 毕业论文任务书 (以下由学生填写) 题 目: 基于数据仓库的企业数据质量控制 目标要求: 本课题希望能够结合来自麻省理工学院 (MIT)的 Richard Y. Wang 教授提出的总体数据质量管理 (
11、Total Data Quality Management, TDQM),在 TDQM 循环的各个阶段(定义、测量、分析、改进)加以扩展和延伸,对一些数据质量领域的关键技术如何在 TDQM 中运用给出合理的解决方案。本课题还将讨论到 ETL 工具的相关内容,力图能够把 TDQM 和 ETL 工具有机联系起来,衍生出完整的关于企业数据质量控制的解决方案。 本课题 的 另一 目标在于 通过数据质量领域的研究,培养自己综合运用所学基础理论与专业知识的能力以及 独立检索中外文献资料的能力。在指导老师 的指导下,锻炼 搜集、整理、筛选信息资料的能力,掌握科学研究的基本方法, 同时还希望能够 在数据质量领
12、域方面有所建树,为下一步在国外大学的研究生学习打下坚实的基础。 支持条件: 整个毕业课题研究过程中我都在科研楼 1 号楼 ,那里有最好的硬件设施和环境。我充分利用学校的免费期刊资源,利用图书馆的纸 制资源,在老师的指导下,明确论文的研究方向,深入研 究所探 讨课题的方方面 面。 指导教师 _ 职称 _ 学生 _ 附 件 分阶段进度安排 阶段 起讫时间 计划完成 内容 1 2009 年 1 月 27 日 - 2009 年 3 月 5 日 收集资料,阅读数据质量的中英文文献,确定具体研究的方向及内容。 征求导师意见,同时 作出修正和改进 。 2 2009 年 3 月 6 日 -2007 年 4 月
13、 6 日 进一步学习相关的知识,大量阅读文献,开始初步接触和熟悉市面上主流的数据仓库解决方案(例如 Teradata解决方案)和数据质量工具。 3 2009 年 4 月 7 日 - 2009 年 4 月 20日 概括总结对于数据质量的研究,适当提出自己的认识和看法。 4 2009 年 4 月 21 日 -2009 年 5 月 11日 研究数据质量在实际案例中的具体实施。 5 2009 年 5 月 12 日 -2009 年 6 月 7 日 撰写 毕业论文, 并在导师指导下不断改进和 完善,并 准备毕业答辩。 注:一般可分为资料文献搜索、拟定方案(提纲)、试验或初稿、定稿等阶段 附 件 教师分阶段
14、指导记录 第一阶段: 指导文献调研,确定毕业论文课题方向 ,形成开题报告。 第二阶段: 指导 大量阅读文献,了解数据仓库和数据质量的相关知识和内涵;帮助理解总体数据质量管理 (Total Data Quality Management, TDQM)方法学;指导数据质量领域关键技术的学习。 第三阶段: 指导 关于数据标记 (Data Tagging)技术的创新和贯穿 TDQM 各个阶段及 ETL 过程的应用。 第四阶段: 指导进行案例分析。 第五阶段: 检查工作进度, 指导毕业论文的修改。 附 件 论文评语 拟评成绩 指导教师(签名) 职称 年 月 日 论文评阅 评阅成绩 评阅教师(签名) 职称 年 月 日 答辩记录 演示 成绩 答辩 成绩 答辩小组组长(签名) 职务(称) 年 月 日 总评 成绩 学院负责人 (签盖) 年 月 日