1、数据立方体计算与数据泛化数据泛化n 数据泛化q 数据库中的数据和对象通常包含原始概念层的细节信息,数据泛化就是将数据库中的跟任务相关的大型数据集从相对较低的概念层抽象到较高的概念层的过程。n 主要方法:q 数据立方体( OLAP使用的方法)q 面向属性的归纳方法12345概念层(Month, city, customer_group)(Month, *, *)两种不同类别的数据挖掘n 从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘q 描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。n E.g. 数据泛化就是一种描述性数据挖掘q 预测性数据挖掘:通过分析数据建立一个
2、或一组模型,并试图预测新数据集的行为。n E.g 分类、回归分析等数据立方体的物化n 数据立方体有利于多维数据的联机分析处理q 数据立方体使得从不同的角度对数据进行观察成为可能n 方体计算(物化)的挑战:海量数据,有限的内存和时间q 海量数据运算对大量计算时间和存储空间的要求数据立方体 -基本概念 (1)n 数据立方体可以被看成是一个方体的格,每个方体用一个 group-by表示n 最底层的方体 ABC是基本方体,包含所有 3个维n 最顶端的方体(顶点)只包含一个单元的值,泛化程度最高n 上卷和下钻操作与数据立方体的对应BA()CAB AC BCABC数据立方体 -基本概念 (2)n 基本方体
3、的单元是 基本单元 ,非基本方体的单元是 聚集单元q 聚集单元在一个或多个维聚集,每个聚集维用 “*“表示q E.g. (city, *, year, measure)q m维方体: (a1,a2,.,an)中有 m个不是 “*“n 祖先和子孙单元q i-D单元 a=(a1,a2,.,an, measuresa)是 j-D单元b=(b1,b2,.,bn, measureb)的祖先,当且仅当n (1)i= min_sup闭立方体 (1)n 冰山方体的计算通过冰山条件(例: HAVING COUNT(*) = min_sup)来减轻计算数据立方体中不重要的聚集单元的负担,然而仍有大量不感兴趣的单元
4、需要计算q 比如:最小支持度为 10,假定 100维的数据立方体有两个基本方体: (a1,a2,a3,a 100):10, (a1,a2,b3,b 100):10,假设冰山条件为最小支持度10n 则需计算和存储的单元仍是海量: 2101-6个n 如: (a1,a2,a3,a 99,*):10, (a1,*,a3,a 100):10闭立方体 (2)n 闭单元q 一个单元 c是闭单元,如果单元 c不存在一个跟 c有着相同度量值的后代 dq 例如:上述例子中,任何一个 (a1,a2,a3,*,*,* ):10,都和他的后代有相同度量值n 闭立方体:一个仅有闭单元组成的数据立方体q 例如:(a1,a2,*,*,* ):20(a1,a2,a3, a 100):10 (a1,a2,b3, b 100):10