1、数据仓库 与 数据 挖掘转 自 -同济大学 经济与管理学院 黄立平 教授目录 一、 数据库相关 1.1 数据库 技术的 发展 1.2 数据库 应用中存在的 问题 1.3 海量 数据要求强有力的数据分析 工具 二、数据仓库 2.1 什么 是数据仓库 DW ( data warehouse )? 2.2 数据 仓库的主要 特征 2.3 DW概念总结 2.4 操作型 数据库系统与数据仓库的区别 2.5 数据 仓库的数据模型 2.6 OLTP和 OLAP的主要 区别目录 2.7数据仓库与操作数据库为什么是分离的 ? 2.8 多维 数据模型 三、数据挖掘 3.1 什么 是数据挖掘? 3.2 数据 挖掘的
2、特点 3.3 数据 挖掘的分类 3.4 数据挖掘的两种功能数据挖掘的两种功能 3.5 数据 挖掘和知识发现的 联系 3.6 数据挖掘实例一、 数据库 相关1.1 数据库技术的发展 收集 和数据库创建 ( 20世纪 60年代和更早 ) -原始文件处理 数据库管理系统 (20世纪 70年代 )-层次、网状、关系数据库系统-数据建模工具:实体 -联系 (E R)模型等-索引和数据组织技术-查询语言 :SQL 、用户界面 :表单、报告等-查询处理和查询优化、事务并发控制等 -联机事务处理 (OLTP)1.1 数据库技术的发展 高级数据库系统 ( 80年代中期 现在 )-高级数据模型 : 扩充关系、面向
3、对象、对象 -关系-面向应用:空间的、时间的、多媒体的、主动的、科学的、知识库 数据仓库和数据挖掘数据仓库和数据挖掘 (80年代后期 现在 )-数据仓库和 OLAP技术-数据挖掘和知识发现 基于 Web的数据库系统 (90年代 现在 )-基于 XML的数据库系统-Web 挖掘1.2 数据库应用中存在的问题“数据丰富,信息贫乏数据丰富,信息贫乏 ” 。 存储了大量数据的数据库变成了 “ 数据坟墓 ” 难以再访问的数据档案; 在大型数据库中快速增长着海量数据, 理解数理解数据的含义已经远远超出了人的能力据的含义已经远远超出了人的能力 ; 领导者的重要决策领导者的重要决策 往往 无法、及时获得信息无
4、法、及时获得信息 ,因为 缺乏从海量数据中提取有价值知识的工具缺乏从海量数据中提取有价值知识的工具;若在当前运行的操作数据库中获取信息,则影响数据库的使用和性能1.3 海量数据要求强有力的数据分析工具 以前的专家系统以前的专家系统 依赖用户或某领域的专家人工地将知识输入知识库 ;这一过程常常有偏差和错误 ,并且 耗时 、 费用高; 使用数据挖掘工具进行数据分析;可以 发发现重要的数据模式现重要的数据模式 ,对商务决策、知识库、科学和医学研究作出了巨大贡献; 数据和信息之间的差距,要求系统地开发数据挖掘工具, 将沉寂的数据转换成宝贵将沉寂的数据转换成宝贵的知识的知识 。二、数据 仓库2.1 什么
5、是数据仓库 DW ( data warehouse )? 数据仓库 可以看作是一种特殊的 关系数据库 。 DW是一个 面向主题面向主题 的、 集成集成 的、 不更新不更新的、 随时间变化随时间变化 的数据集合,用于 支持管理部门的 决策过程 。 DWS允许 将各种应用系统集成将各种应用系统集成 在一起为统一的历史数据分析提供坚实的平台,对信息处理、决策提供支持。2.2 数据仓库的主要特征 面向 主题的 ( subject oriented ) :(1) 所谓 主题主题 (宏观领域),如顾客、供应商、产品和销售组织;是在高层次上将企业 IS中的数据综合、归类并进行分析利用的抽象。 面面向主题向主
6、题 ,是指数据仓库内的信息是按主题进行组织的,为按决策的过程提供信息。 (2) DW关注决策者的 数据建模与分析数据建模与分析 ,而传统数据库是面向应用的,集中于组织机构的日常操作和事务处理。(3) DW排除对于决策无用的数据, 提供特定主题提供特定主题的简明视图的简明视图 。 2.2 数据仓库的主要特征(4) 传统数据库使用 OLTP联机事务处理方式联机事务处理方式 ,进行数据组织时考虑记录每一笔业务的情况;数据仓库使用 OLAP联机分析处理方式联机分析处理方式 ,进行数据分析处理,以主题为单位组织数据,例如:供应商、商品、顾客等。(5) 面向主题 的数据组织方式要求 将数据组将数据组织成主题域织成主题域 ,各主题域之间有明确的界限(独立性),在某一主题内的数据应该包括分析处理所要求的一切数据(完备性)。