1、1第一章作业1 数据库与数据仓库的本质差别是什么?书 P2(1)数据库用于事务处理,数据仓库用于决策分析。 (2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。 (3)数据仓库的数据是大量数据库的集成。 (4)对数据库的操作比较明确,操作数量较小。对数据仓库操作不明确,操作数据量大。6.OLTP OLAP细节性数据 综合性数据当前数据 历史数据经常更新 不更新,但周期性刷新一次性处理的数据量小 一次处理的数据量大对响应时间要求高 响应时间合理面向应用,事务驱动 面向分析,分析驱动8 定义为关于数据的数据,描述数据仓库中数据及其环境的数据。9 元数据不仅仅是数据仓库的字
2、典,而且还是数据仓库本身功能的说明数据,是整个数据仓库的核心。数据字典是关于数据库中数据的描述,而不是数据本身,数据字典是数据库的元数据。18、统计学与数据挖掘的不同。统计学主要是对数量数据或连续值数据进行数值计算的定量分析,得到数量信息。数据挖掘主要对离散数据进行定性分析,得到规则知识。在统计学中有聚类分析和判别分析,它们与数据挖掘中的聚类和分类相似。但是,采用的标准不一样,统计学的聚类采用的“距离”是欧式距离,即两点间的坐标(数值)距离。而数据挖掘的聚类采用的“距离”是海明距离,即属性取值是否相同,相同者距离为 0,不相同者距离为 1。总之,统计学与数据挖掘是有区别的,但是,它们之间是相互
3、补充的。不少数据挖掘的著作中均把统计学的不少方法引入到数据挖掘中,与将机器学习中不少方法引入到数据挖掘中一样,作为从数据获取知识的一大类方法。19、说明数据仓库与数据挖掘的不同。数据仓库是在数据库的基础上发展起来的。它将大量的数据库的数据按决策需求进行重新组织,以数据仓库的形式进行存储,将为用户提供辅助决策的随机查询、综合信息以及随时间变化的趋势分析信息等。数据仓库是一种存储技术,其数据存储量是一般数据库的 100 倍,包含大量的历史数据、当前的详细数据以及综合数据。它能适应不同用户对不同决策需要提供所需的数据和信息。数据挖掘是从人工智能机器学习中发展起来的。它研究各种方法和技术,从大量的数据
4、中挖掘出有用的信息和知识。最常用的数据挖掘方法是统计分析方法、神经网络方法和机器学习中研究的方法。数据挖掘中采用机器学习的方法有归纳学习方法(如覆盖正例排斥反例方法,如 AQ 系列算法、决策树方法等)、遗传算法、发现学习算法(如公式发现系统 BACON)等。利用数据挖掘的方法和技术从数据仓库中挖掘的信息和知识,反映了数据仓库中数据的规律性。用户利用这些信息和知识来指导和帮助决策。例如,利用分类规则来预测未知实体的类别。23:数据仓库与联机分析出口里、数据挖掘在决策支持方面有什么不同?2答:数据仓库视为辅助决策而建立的,单依靠数据仓库达到辅助决策的能力是有限的,综合信息和预测信息是数据仓库所获得
5、的辅助决策信息。数据仓库中增加联机分析处理和数据挖掘等分析工具,能较大的提高辅助决策能力。数据仓库和联机分析处理几数据挖掘结合的决策支持系统,是以数据仓库为基础的,称为基于数据仓库的决策支持系统。概括地说:基于数据仓库的决策支持系统是从数据仓库的数据中获取辅助决策信息和知识,为决策提供支持。25 画出基于数据仓库的决策支持系统结构图。如图:28 如何理解商业智能与基于数据仓库的决策支持系统的区别于联系?答:可以认为,商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力(insight) ,促使他们做出对企业更有利的决策。商业智能一般由数据仓库、联机分析处理、数据
6、挖掘、数据备份和恢复等部分组成。商业智能的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。第二章作业1. 画出数据仓库的结构图,说明各部分内容。P18答:当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分数据量大。随着时间的推移,有数据仓库的时间控制机制转为历史数据,轻度综合数据是从当前基本数据中提取出来的,最高一层是高度综合数据层,这一层的数据十分精炼,是一种准决策数据。2. 说明数据仓库结构图中包含轻度综合层与高度综合数据层的作用。这些数据为什么不是临时计算出来的。P18-19数据仓库除了存储按主题组织起来的当前详细数据外,还需
7、要存储综合数据,这是为了适应决策需求而增加的。在数据库中需要得到综合数据时,采用数据立方体的方法对详细数据进行综合。在数据仓库中并不采取临时计算的方式得到综合数据,而在用户提出需要综合数据之前,就预先将可能的综合数据利用数据立方体计算好,存入综合数据层中,这种综合数据层在用户查询时,能迅速提供给用户。3. 说明数据集市与数据仓库的区别和联系。P206.画出数据仓库系统结构图,说明把仓库管理和分析工具作为数据仓库系统的两个独立组成部分的原因。图:P22 原因:仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;
8、备份和恢复;存储管理。访问工具:为用户访问数据仓库提供手段9.画出数据仓库的运行结构图,说明三层 C/S 结构和两层 C/S 结构的不同点。二层 C/S 结构三层 C/S 结构客户端 数据仓库服务器客户端 OLAP 服务器数据仓库服务器3OLAP 服务器将加强和规范化决策支持的服务工作,集中和简化了数据仓库服务器的部分工作,即 OLAP 服务器从数据仓库服务器中抽取数据,在 OLAP 服务器中转换成客户端要求的多维视图,并进行多维数据分析,将分析结果传送给客户端,这种结构形式工作效率更高。11.数据模型与数学模型有什么区别?答:数据模型是数据特征的抽象,数据管理教学的形式框架,数据库系统中用以
9、提高信息表示和操作手段的形势构架。数据模型包括数据库的数据的结构部分、数据库数据的操作部分和数据库数据的约束条件。数学模型是根据对研究对象所观察到的现象及实践经验,归结成的一套反映其内部因素数量关系的数学公式、逻辑准则和具体算法。用以描述和研究客观现象的运动规律。15第三范式数据模型与星型模型有什么不同?第三范式不同于星型模型之处在于,把事实表和维表的属性作为一个实体都集中在同一数据库表中,或分成多个实体用多个表来表示,每个表按第三范式组织数据。它减少了为表中的键和不必要的属性。17简单说明 ETL 过程的主要步骤。ETL 过程的主要步骤概括为:(1)决定数据仓库中需要的所有的目标数据(2)决
10、定所有的数据源,包括内部和外部的数据源(3)准备从源数据到目标数据的数据映射关系(4)建立全面的数据抽取规则(5)决定数据转换和清洗规则(6)为综合表制定计划(7)组织数据缓冲区域和检测工具(8)为所有的数据装载编写规程(9)维度表的抽取、转换和装载(10)事实表的抽取、转换和装载18、说明数据抽取工作的内容。P2821数据装载方式与类型有哪些?答:数据仓库中最基本的元数据相当于数据库系统中的数据字典。由于数据仓库和数据库有很大的不同,因此元数据的作用远不是数据字典所能相比的。元数据在数据仓库中有着举足轻重的作用,它不仅仅定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取
11、和转换规则,存储了与数据仓库有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的,如数据的修改,跟踪,抽取,装入,综合等。23什么是关于数据源的元数据?答:关于数据模型的元数据描述了数据仓库中有什么数据以及数据之间的关系,是用户管理数据仓库的基础。这种元数据可以支持从数据仓库中获取数据。用户可以提出需要哪些表,系统从中选一个表,并得到表之间的关系。重复该过程,用户希望能够得到希望的数据。24什么是关于数据模型的元数据? 答:关于数据模型的元数据描述了数据仓库中有什么数据以及数据间的关系,支持用户从数据仓库中获取数据。25什么是关于数据仓库映射的元数据?答:关于数据仓库映射的元数据,反映了
12、数据源与数据仓库数据之间的映射,以及数据项是从哪个特定的数据源抽取的,经过了哪些转换、变换和装载。第三章作业1. 联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么。P402. OLAP 准则中的主要准则有哪些?P413. 什么是维?关系数据库是二维数据吗?如何理解多维数据?P43维是人们观察数据的特定角度。关系数据库不是二维数据,只是通过二维关系表示了数据的多维概念。多维数据就是从多个特定角度来观察特定的变量。4.MDDB(Multi Dimensional Database, 多维数据库)是以多维的方式组织数据,即以维作为坐标系,采用类似于数组的形式存储数据。RDBMS(rela
13、tional database management system,关系型数据库管理系统)通过数据、关系和对数据的约束三者组成的数据模型来存放和管理数据MDDB 特点:1. 数据库中的元素具有相同的数值2. 多维数据库表达清晰,3. 占用存储少RDBMS 的特点:41.数据以表格的形式出现2.每行为各种记录名称3.每列为记录名称所对应的数据域4.许多的行和列组成一张表单5.若干的表单组成 database5.1.数据存取速度ROLAP 服务器需要将 SQL 语句转化为多维存储语句,临时“拼合”出多维数据立方体。因此,ROLAP 的响应时间较长。MOLAP 在数据存储速度上性能好,响应速度快。
14、2.数据存储的容量ROLAP 使用的传统关系数据库的存储方法,在存储容量上基本没有限制。MOLAP 通常采用多平面叠加成立体的方式存放数据。当数据量超过操作系统最大文件长度时,需要进行数据分割。多维数据库的数据量级难以达到太大的字节级。 3.多维计算的能力MOLAP 能够支持高性能的决策支持计算。ROLAP 无法完成多行的计算和维之间的计算。4.维度变化的适应性MOLAP 增加新的维度,则多维数据库通常需要重新建立。ROLAP 对于维表的变更有很好的适应性。5.数据变化的适应性当数据频繁的变化时,MOLAP 需要进行大量的重新计算,甚至重新建立索引乃至重构多维数据库。在 ROLAP 中灵活性较
15、好,对于数据变化的适应性高。6.软硬件平台的适应性ROLAP 对软硬件平台的适应性很好,而 MOLAP 相对较差。7.元数据管理目前在元数据的管理,MOLAP 和 ROLAP 都没有成形的标准。 6.在 HOLAP 中,对最常用的维度和维层次,使用多维数据表来存储,对于用户不常用的维度和数据,采用 ROLAP 星型结构来存储。7多维数据显示的两种方法:关系数据库方式和多维数据库方式。关系数据库可以显示更多维的数据,但用事实表显示多维数据时,重复数据很多,也很繁琐;多维数据库虽然不能同时显示三维以上数据,但显示的数据很精炼。11、多维数据显示的经验规则是什么?答:多维数据的显示只能在平面上展现出
16、来,用多维数据库显示时,不能同时显示三维以上数据,但可以固定一些维成员,重点显示两维维数据。最有效表示多维数据使用多维类型结构(MTS) ,即每一维用一条线段表示,维度中每一个成员都用线段上的一个区间表示。还可以使用行、列和页表三个显示组来表示。经验规则:1. 将维度尽量放在页中,除非确定需要同时看到一个维度的多个成员;2. 当维度嵌套在行货列中时,考虑到垂直空间比水平空间更有用,所以讲维度嵌套在列中比嵌套在行中要好;3. 在决定数据的屏幕显示方式前,应首先弄清楚需要查找和分析比较的内容;12、举例说明 OLAP 的多维数据分析的切片操作。答:切片就是在某两个维上取一定区间的维成员或全部维成员
17、。如用三维数组表示为(地区,时间,产品,销售额) ,如果在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产品的切片) 。13 比如部门销售数据表中部门 1 的销售额为 900 元,对时间维进行下钻操作,可以得到各个季度分别的销售额为多少。14(1) 切片:切片就是在某两个维上取一定区间的为成员或全部维成员,而在其余的维上选定一个维成员的操作。切片的作用就是舍弃一些观察角度,使人们能在两个维上集中观察数据。(2) 切块:切块分两种情况:(1)在多维数据的某一个维上选定某一区间的维成员的操作。 (2)选定多维数组的一个三维子集的操作。切块可以看成是在切片的基础上确定某一个维成员
18、的区间得到的片段,也即由多个切片叠合起来的。(3) 钻取:向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据,向上钻取获取概括性信息。(4) 旋转:通过旋转可以得到不同视角的数据,旋转操作相当于平面数据将坐标轴旋转。515、广义 OLAP 功能如何提高多维数据分析能力。广义 OLAP 功能主要是通过四个模型逐层深入从而提高多维数据分析能力。这四个模型分别是:(1)绝对模型:它属于静态数据分析,通过比较历史数据值或行为来描述过去发生的事实。该模型查询比较简单,综合路径是预先定义好的,用户交互少。(2)解释模型:它也属于静态数据分析,分析人员利用系统已有的多层次的综合路径层层细化,找
19、出事实发生的原因。(3)思考模型:它属于动态数据分析,旨在说明在一维或多维上引入一组具体变量或参数后将会发生什么。分析人员在引入确定的变量或公式关系时,必须创建大量的综合路径。(4)公式模型:它的动态数据分析能力更高,该模型表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。16、说明数据立方体的概念数据立方体的概念是 1996 年,Jim Gray 等首次提出的。数据立方体是实现多维数据查询与分析的一种重要手段。实质上,数据立方体就是数据仓库结构图中的综合数据层。从此,基于数据立方体的生成方法一直是 OLAP 和数据仓库领域研究者所关注的热点问题。多数据集的属性分为维属性和度量属
20、性。维数性是观察数据对象的角度,而度量属相则反映数据对象的特征。对于多维数据分析而言,本质上是沿着不同的维度进行数据获取的过程。在数据立方体中,不同维度组合构成了不同的子立方体,不同维值的组合机器对应的度量值构成相应的对于不同的查询和分析。因此,数据立方体的构建和维护等计算方法成为了多维数据分析研究的关键问题。17 答:OLAP 的逻辑结构由 OLAP 视图和数据存储两部分组成。OLAP 视图:对于用户来说它是数据仓库或数据集市中数据的多维逻辑表示,不管数据怎么存储和存储在何处。数据存储:要求选择数据实际存储方式和实际存储位置,两种常用的选择是多维数据存储和关系数据存储。18 答:OLAP 的
21、物理结构包括基于数据存储的两种方式:多维数据存储和关系数据存储。多维数据存储主要有两种选择:多维数据存储于客户端或 OLAP 服务器。在第一种情况,多维数据存储于客户端,数据分析也在客户端,这样形成了“胖”客户端,这是一种两层客户/服务器的物理结构。在第二种情况,多维数据存储放在 OLAP 服务器中,抽取数据仓库中的数据,然后将其转换成多维数据结构,并把OLAP 服务器传给客户端,这时客户端就变成了“瘦”客户端,这是一种经典的三层客户/服务器物理结构。19说明浓缩立方体的压缩方法和效果。答:浓缩立方体计算方法的基本原理是,在某些属性或组合下的一个元组相对于其他元组具有唯一性,则称为基本单一组(
22、BST),当它的超集也是 BST,且都是取同一度量值,在聚集运算时,可以把这些属性的度量值对应的元组压缩成一条元组存储。一般来说,浓缩立方体的压缩率可以达到 30%-70%。20.多维数据分析的 MDX 语言与数据库的 SQL 语言有什么不同?答:MDX 语言结合了多维数据集,指定“维度”(ON 子句)和“创建表达式计算的新成员”(MEMBER 子句),这样就可以来从多维数据集中挖掘出指定的数据。21MDX 提供的函数 children 来完成这个操作。Children 函数返回一个自然排序的集,该集包含指定成员的子成员。 如果指定的成员没有子成员,则此函数返回一个空集。示例下例将返回 Geo
23、graphy 维度中 Geography 层次结构的 United States 成员的子成员。SELECT Geography.Geography.Country.如果 Y=?的概率既不依赖于 Y 也不依赖于 X 的状态,则认为数据时完全丢失的(Missing Completely at Random) 。对于数据随时丢失与完全丢失分两种情况,如果数据挖掘方法不受影响,那么丢失数据的模式是可以忽略的。但是 Y=?的概率即依赖于 Y 也依赖于 X 时,则丢失数据的模式是不可忽略的。10 那种丢失数据的模式是不可以忽略的?答:丢失数据模式分类取决于 Y=?的概率是否依赖于 Y 与 X 的状态。如
24、果这一概率赖于 X 但是不依赖于 Y ,则认为数据是随时丢失(Missing at Random);如果 Y=?的概率既不依赖于 Y 也不依赖于 X 的状态,则认为数据时完全丢失的(Missing Completely at Random) 。对于数据随时丢失与完全丢失分两种情况,如果数据挖掘方法不受影响,那么丢失数据的模式是可以忽略的。但是 Y=?的概率即依赖于 Y 也依赖于 X 时,则丢失数据的模式是不可忽略的。11、处理丢失数据的方法有哪些?答:处理丢失数据的方法有:基于已知数据的方法、基于猜测的方法、基于模型的方法、基于贝叶斯理论的方法和基于决策树的方法。12、数据浓缩包括哪两方面?答
25、:数据浓缩包括属性约简和元组压缩两个方面。13 属性约简的原则是保持数据库中分类关系不变。14 属性约简一般采用:粗糙集方法或信息论方法。15 元组压缩有:相同元组(记录)合并;利用概念树进行归并;对元组的聚类16、如何利用概念树进行元组的压缩?答:数据库中记录的属性字段按归类方式进行合并,建立起来的层次结构称为概念树。利用概念树提升的方法可以大大浓缩数据库中的记录。多个属性字段的概念树提升,将得到高度概括的只是基表,然和转化成规则,就完成了利用概念树压缩数据的目的。17、ID3 方法建立决策树的基本思想?答:ID3 方法建立决策树是通过信息论中互信息最大作为根节点,递归依次根据数据建立树的思
26、想。从而完成决策树的建立。18、 “信息增益”是“互信息”么?答:是一样的。I(C,V)=H(C)-H(C|V)=info(T)-infov(T)=gain(T)19,神经网络方法是模拟了人脑神经元结构,以 MP 模型和 Hebb 学习规则为基础,建立三大类多种神经网络模拟,分别为前馈式网络,反馈式网络和自组织网络。20,遗传算法的三个算子为繁殖(选择) ,交叉(重组) ,变异(突变) 。21,BACON 发现系统完成了物理学中大量定律的重新发现。它的基本思想是对数据项进行初等数学运算形成组合数据项,若它的的值为常数项,就得到了组合数据项等于常数的公式。FDD 发现系统的基本思想是对两个数据项交替取初等函数后与另一个数据项的线性组合若为直线时,就找到了数据项的初等函数的线性组合公式。该系统所发现的公式比 BACON 系统发现的公式更宽些。22、公式发现中的 BACON 方法与 FDD 方法的基本思想是什么?答:BACON 的基本思想是对数据反复进行初等数学运算形成的组合数据项,若它的值为常数,就得到了组合数据项等于常数的公式。FDD 的基本思想是对两个数据项交替取初等函数后与另一数据项的线性组合,反复进行不同的初等函数试验,当线性组合为直线时,就找到了数据项的初等函数的线性组合公式。23、数据挖掘的知识表示有哪些?答:规则知识,决策树知识,知识基,神经网络权值,公式知识和案例。