数据挖掘原语、语言和系 统结构为什么要数据挖掘原语和语言? n 没有精确的指令和规则,数据挖掘系统就没法使用。 n 一个完全自动(不需要人为干预或指导)的数据挖掘 机器: q 会产生大量模式(重新把知识淹没) q 会涵盖所有数据,使得挖掘效率低下 q 大部分有价值的模式集可能被忽略 q 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性 令人不感兴趣。 n 用数据挖掘原语和语言来指导数据挖掘。数据挖掘原语的组成部分 n 数据挖掘原语应该包括以下部分: q 说明数据库的部分或用户感兴趣的数据集 q 要挖掘的知识类型 q 用于指导挖掘的背景知识 q 模式评估、兴趣度量 q 如何显示发现的知识 n 数据挖掘原语用于用户和数据挖掘系统通信,让用户 能从不同的角度和深度审查和发现结果,并指导挖掘 过程。说明数据挖掘任务的原语 n 任务相关的数据 q 数据库(仓库)名、数据立方体、选择条件、相关属性、分 组条件 n 挖掘的知识类型 q 特征化、区分、关联、分类/ 预测、聚类 n 背景知识 q 概念分层,关联的确信度 n 模式兴趣度度量 q 简单性、确定性、实用性、新颖性 n 发现模式的可视化 q