1、数据仓库与数 据 挖 掘主讲教师:骆懿玲E-mail: 教科书和参考书n 教科书q 数据仓库与数据挖掘q 陈志泊主编 ,清华大学出版社 2009.5.n 参考书n 数据挖掘概念与技术, Jiawei Han和 Micheline Kamber 著,机械工业出版社 (2001)中文版数据仓库与数 据 挖 掘n 指定选修 32学时 2学分 8周n 总评成绩 =期末考试( 70%) +作业( 30%)n 作业:q 第 1次交作业:n 第 1章习题( 1-12题) n 第 2章全部习题q 第 2次交作业:第 4章q 第 3次交作业:第 5章 第 6章作业格式填空题:1、数据仓库就是一个 面向主题的 、
2、集成的、 相对稳定的 、反映历史变化的数据集合。2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为 技术元数据 和 业务元数据 两类。3、数据处理通常分成两大类:联机事务处理和 联机分析处理 。问答题11. 什么是数据仓库?数据仓库的特点主要有哪些?答: 数据仓库就是一个面向主题的( Subject Oriented)、集成的(Integrate)、相对稳定的( Non-Volatile)、反映历史变化( Time Variant)的数据集合,通常用于辅助决策支持。 数据仓库的特点包含以下几个方面: ( 1) 面
3、向主题。操作型数据库的数据组织是面向事务处理任务, 数据挖掘的发展动力n 数据爆炸问题 q 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。n 我们拥有丰富的数据,但却缺乏有用的信息 n 解决方法:数据仓库技术和数据挖掘技术q 数据仓库 (Data Warehouse)和在线分析处理(OLAP)q 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据库技术的演化 (1)n 1960s和以前 :q 文件系统n 1970s: q 层次数据库和网状数据库n 1980s早期 :q 关系数据模型 , 关系数据库管理系统 (RDBMS
4、)的实现数据库技术的演化 (2)n 1980s晚期 :q 各种高级数据库系统 (扩展的关系数据库 ,面向对象数据库等等 .) q 面向应用的数据库系统 (空间数据库,时序数据库,多媒体数据库等等)n 1990s: q 数据挖掘 , 数据仓库 , 多媒体数据库和网络数据库n 2000sq 流数据管理和挖掘q 基于各种应用的数据挖掘q XML数据库和整合的信息系统什么是数据挖掘?n 数据挖掘的概念q 数据挖掘 (Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或 “挖掘 ”知识,又被称为数据库中的知识发现
5、 (Knowledge Discovery in Database, KDD) n 数据挖掘的替换词q 数据库中的知识挖掘( KDD)q 知识提炼、q 数据 /模式分析q 数据考古q 数据捕捞、信息收获等等。数据挖掘 : 数据库中的知识挖掘 (KDD)q 数据挖掘 知识挖掘的核心数据清理数据集成数据库数据仓库任务相关数据选择数据挖掘模式评估KDD的步骤n 从 KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识1. 数据清理 : (这个可能要占全过程 60的工作量 )2. 数据集成3. 数据选择4. 数据变换5. 数据挖掘(选择适当的算法来找到感兴趣的模式)6. 模式评估7. 知识表示