1、数据仓库与数据挖掘综述概念、体系结构、趋势、应用2004年年 6月月 7日日提纲v 数据仓库概念v 数据仓库体系结构及组件v 数据仓库设计v 数据仓库技术(与数据库技术的区别)v 数据仓库性能v 数据仓库应用v 数据挖掘应用概述v 数据挖掘技术与趋势v 数据挖掘应用平台(科委申请项目)数据仓库概念v 基本概念v 对数据仓库的一些误解基本概念 数据仓库 Data warehouse is a subject oriented, integrated,non-volatile and time variant collection of data in support of managements
2、 decision Inmon,1996. Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform Ladley,1997. Data warehouse is a process of crating, maintaining,and using a decision-support infrastructure Ap
3、pleton,1995Haley,1997Gardner 1998.基本概念 数据仓库特征 Inmon,1996v 面向主题n 一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目; )n 典型的主题领域:客户;产品;交易;帐目n 主题领域以一组相关的表来具体实现n 相关的表通过公共的键码联系起来(如:顾客标识号 Customer ID)n 每个键码都有时间元素(从日期到日期;每月累积;单独日期 )n 主题内数据可以存储在不同介质上(综合级,细节级,多粒度)v 集成n 数据提取、净化、转换、装载v 稳定性n 批处理增加,仓库已经存在的数据不会改变v 随时间而
4、变化(时间维)v 管理决策支持基本概念 Data Mart, ODSv Data Martn 数据集市 - 小型的,面向部门或工作组级数据仓库。v Operation Data Storen 操作数据存储 ODS是能支持企业日常的全局应用的数据集合 ,是不同于 DB的一种新的数据环境 , 是 DW 扩展后得到的一个混合形式。四个基本特点:面向主题的 (Subject -Oriented)、 集成的、可变的、 当前或接近当前的。基本概念 ETL, 元数据,粒度,分割v ETLn ETL( Extract/Transformation/Load) 数据装载、转换、抽取工具。 Microsoft D
5、TS; IBM Visual Warehouse etc.v 元数据n 关于数据的数据, 用于构造、维持、管理、和使用数据仓库, 在数据仓库中尤为重要。v 粒度n 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。v 分割n 数据分散到各自的物理单元中去,它们能独立地处理。对数据仓库的一些误解v 数据仓库与 OLAPn 星型数据模型n 多维分析v 数据仓库不是一个虚拟的概念v 数据仓库与范式理论n 需要非范式化处理提纲v 数据仓库概念v 数据仓库体系结构及组件v 数据仓库设计v 数据仓库技术(与数据库技术的区别)v 数据仓库性能v 数据仓库应用v 数据挖掘应用概述v 数据挖掘技术与趋势v 数据挖掘应用平台(科委申请项目)数据仓库体系结构及组件v 体系结构v ETL工具v 元数据库 (Repository)及元数据管理v 数据访问和分析工具