1、数据挖掘系列讲座五概念描述:特征化与比较两种不同类别的数据挖掘n 从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘q 描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。q 预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。什么是概念描述?n 概念描述是一种最简单的描述性挖掘q 当所描述的概念所指的是一类对象时,也称为 类描述n 概念指的是一类数据的集合q e.g. 研究生,大客户n 概念描述是指为数据的特征化和比较产生描述q 特征化:提供给定数据集的简洁汇总。q 区分:提供两个或多个数据集的比较描述。概念描述 VS. OLAPn 概念描述和数据
2、仓库的联机分析处理( OLAP)都跟数据概化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。n 两者的主要区别:q 概念描述n 可以处理复杂数据类型的属性及其聚集n 一个更加自动化的过程q OLAPn 实际使用的 OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型n 一个由用户控制的过程数据概化n 数据概化q 数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。n 主要方法:q 数据立方体( OLAP使用的方法)q
3、 面向属性的归纳方法12345概念层数据概化:数据立方体方法n 执行计算并将结果存储在数据立方体中n 优点:q 数据概化的一种有效实现q 可以计算各种不同的度量值n 比如: count(), sum(), average(), max()q 概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等n 缺点q 只能处理非数值类型的维和简单聚集数值类型的度量值(大部分现有商业系统中,只能为非数值类型的维产生概念分层)q 缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次面向属性的归纳n 一种面向 关系数据 查询的、基于 汇总 的 在线 数据分析技术。n 受数据类型和度量类型的约
4、束比较少n 面向属性归纳的基本思想:q 使用关系数据库查询收集任务相关的数据q 通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化q 通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作q 通过与用户交互,将广义关系以图表或规则等形式,提交给用户面向属性的归纳的基本步骤n 数据聚焦,获得初始工作关系n 进行面向属性的归纳q 基本操作是数据概化,对有 大量不同值的属性 ,进行进一步概化n 属性删除n 属性概化q 属性概化控制:控制概化过程,确定有多少不同的值才算是有 大量不同值的属性n 属性概化临界值控制n 概化关系临界值控制数据聚焦 ( 1)n 目的是获得跟任务相关的数据集,包括属性或维,在DMQL中他们由 in relevance to子句表示。n 示例:q DMQL: 描述 Big-University数据库中 研究生 的一般特征 use Big_University_DBmine characteristics as “Science_Students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in “graduate”