1、数据仓库概念、设计及应用提纲1.为什么要建立数据仓库2. 数据仓库的概念及特性3. 数据仓库的结构4. 数据仓库的设计5. 数据仓库的开发过程6. 数据仓库的典型应用事务处理环境不适宜 DSS应用的原因 v 事务处理和分析处理的性能特性不同 n 操作型处理 对数据的存取操作频率高而每次操作处理的时间短; n 在分析处理环境中,某个 DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。v 数据集成问题v 数据动态集成问题v 历史数据问题 v 数据的综合问题 抽取程序v 用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要总体分析数据时就与联机事务处理性能不发生冲突。v 用抽取程序
2、能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。蜘蛛网问题v数据缺乏可信性数据缺乏可信性n数据无时基数据无时基n数据算法上的差异数据算法上的差异n抽取的多层次抽取的多层次n外部数据问题外部数据问题n无起始的公共数据源无起始的公共数据源v生产率低生产率低n根据全部数据生成企业报表根据全部数据生成企业报表n定位数据需要浏览大量文件定位数据需要浏览大量文件n抽取程序很多,并且每个都是定制的,不得不克服很多技术上抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍。的障碍。v数据转化为信息的不可行性数据转化为信息的不可行性n数据没有集成化数据没有集成化n缺乏将数据转化为信息所需
3、的历史数据缺乏将数据转化为信息所需的历史数据体系结构设计环境的层次n数据操作层只保存原始数据并且服务于高性能事务处理领域;数据操作层只保存原始数据并且服务于高性能事务处理领域;n数据仓库层存储不更新的原始数据,此外一些导出数据也在此存数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在;在;n数据的部门层几乎只存放导出数据;数据的部门层几乎只存放导出数据;n在数据个体层中完成大多数启发式分析在数据个体层中完成大多数启发式分析操作层操作层原子原子 /数据数据仓库层仓库层 部门层部门层 个体层个体层数据仓库的概念 数据仓库是在企业管理和决策中面向主题的、集成的、与数据仓库是在企业管理和决策中
4、面向主题的、集成的、与时间相关的、不可修改的数据集合。时间相关的、不可修改的数据集合。William H.Inmon与其他数据库应用不同的是,数据仓库更像一种过程,对分与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。布在企业内部各处的业务数据的整合、加工和分析的过程。数据仓库的特性 v面向主题面向主题n典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目v集成的集成的n数据提取、净化、转换、装载数据提取、净化、转换、装载v非易失的非易失的n数据仓库的数据通常是一起载入和访问的,但并不进行一数据仓库的数据通常是一起载
5、入和访问的,但并不进行一般意义上的数据更新般意义上的数据更新v随时间的变化性随时间的变化性n数据仓库中的时间期限要远远长于操作型系统中的时间期数据仓库中的时间期限要远远长于操作型系统中的时间期限(限( 510年);年);n数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库中的数据是一系列某一时刻生成的复杂的快照;n数据仓库的键码结构总是包含某时间元素。数据仓库的键码结构总是包含某时间元素。数据仓库的结构早期细节级早期细节级当前细节级当前细节级轻度综合级轻度综合级数据集市数据集市高度综合级高度综合级元数据元数据操作型转换操作型转换数据仓库设计中的几个重要概念 vETLnETL( Extr
6、act/Transformation/Load) 用户从数据源用户从数据源抽取出所需的数据,经过数据清洗、转换抽取出所需的数据,经过数据清洗、转换 ,最终按照预先定最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。义好的数据仓库模型,将数据加载到数据仓库中去。v元数据元数据n关于数据的数据,指在数据仓库建设过程中所产生的有关关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。时元数据还包含关于数据含义的商业信息。v粒度粒度n数据仓库的数据单位中保存数据的细化或综合程度的级别数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。粒度级就越大。v分割分割n结构相同的数据被分成多个数据物理单元。任何给定的数结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。据单元属于且仅属于一个分割。