1、数据挖掘原语、语言和系统结构为什么要数据挖掘原语和语言?n 没有精确的指令和规则,数据挖掘系统就没法使用。n 一个完全自动(不需要人为干预或指导)的数据挖掘机器:q 会产生大量模式(重新把知识淹没)q 会涵盖所有数据,使得挖掘效率低下q 大部分有价值的模式集可能被忽略q 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性 令人不感兴趣。n 用数据挖掘原语和语言来指导数据挖掘。数据挖掘原语的组成部分n 数据挖掘原语应该包括以下部分:q 说明数据库的部分或用户感兴趣的数据集q 要挖掘的知识类型q 用于指导挖掘的背景知识q 模式评估、兴趣度量q 如何显示发现的知识n 数据挖掘原语用于用户和数据挖掘
2、系统通信,让用户能从不同的角度和深度审查和发现结果,并指导挖掘过程。说明数据挖掘任务的原语n 任务相关的数据q 数据库(仓库)名、数据立方体、选择条件、相关属性、分组条件n 挖掘的知识类型q 特征化、区分、关联、分类 /预测、聚类n 背景知识q 概念分层,关联的确信度n 模式兴趣度度量q 简单性、确定性、实用性、新颖性n 发现模式的可视化q 规则、表、图表、图、判定树 任务相关的数据n 用户感兴趣的只是数据库或数据仓库的一个子集。q 相关的操作: DB选择、投影、连接、聚集等; DW切片、切块n 初始数据关系q 数据子集选择过程产生的新的数据关系n 可挖掘的视图q 用于数据挖掘相关任务的数据集
3、任务相关的数据 例子n 挖掘加拿大顾客和他们常在 AllElectronics购买的商品间的关联规则q 数据库(仓库)名 ( e.g. AllElectronics_db)q 包含相关数据的表或数据立方体名 ( e.g. item, customer, purchases, item_sold)q 选择相关数据的条件(今年、加拿大)q 相关的属性或维( item表的 name和 price,customer表的 income和 age)要挖掘的知识类型n 要挖掘的知识类型将决定使用什么数据挖掘功能。q 概念描述(特征化和区分),关联规则,分类 /预测,聚类和演化分析等n 模式模板q 又称元模式
4、或元规则,用来指定所发现模式所必须匹配的条件,用于指导挖掘过程。关联规则元模式 例子n 研究 AllElectronics的顾客购买习惯,使用如下关联规则:q P(X: customer, W) Q(X, Y) =buys(X, Z)n X-customer表的关键字n P,Q-谓词变量n W, Y, Z-对象变量n 模板具体化q age(X, “3039”) income(X, “40k49k”)= buys(X, “VCR”) 2.2%, 60%q occupation(x, “student”) age(X, “2029”)= buys(X, “computer”) 1.4%, 70%背
5、景知识:概念分层n 背景知识是关于挖掘领域的知识,概念分层是背景知识的一种,它允许在多个抽象层上发现知识。n 概念分层以树形结构的节点集来表示,其中每个节点本身代表一个概念,根节点称为 all,而叶节点则对应于维的原始数据值。概念分层 上卷和下钻n 在概念分层中应用上卷操作(概化),使得用户可以使用较高层次概念替代较低层次概念,从而可以在更有意义,跟抽象的层次观察数据,从而跟容易发现知识。同时上卷操作带来的数据归约还能有效的节省I/O支出。n 概念分层的下钻操作使用较低层概念代替较高层概念,从而使用户能够对过于一般化的数据做更详细分析。n 上卷和下钻操作让用户以不同视图观察数据,洞察隐藏的数据联系。n 概念分层的自动生成。