1、数据挖掘算法 Wang Ye 2006.8一、概念和术语n 1.1 数据挖掘 / 知识发现( 1) 数据挖掘 是从存放在数据集中的大量数据挖掘出有趣知识的过程。( 2)数据挖掘,又称为 数据库中知识发现 ( Knowledge Discovery in Databases)或 知识发现 ,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的非平凡过程,它与数据仓库有着密切的联系。( 3)广义的数据挖掘是指知识发现的全过程;狭义的数据挖掘是指统计分析、机器学习等发现数据模式的智能方法,即偏重于模型和算法。( 4)数据库查询系统和专家系统 不是 数据挖掘!在小规模数据上的统计分析和机器
2、学习过程也不应算作数据挖掘。 n 1.2 机器学习( 1)对于某类任务 T和性能度量 P,如果一个计算机程序在 T上以 P衡量的性能随着经验 E而自我完善,那么这个计算机程序被称为在从经验 E学习。( 2)机器学习是知识发现的一种方法,是指一个系统通过执行某种过程而改进它处理某一问题的能力。n 1.3 数据挖掘的对象( 1)关系型数据库、事务型数据库、面向对象的数据库;( 2)数据仓库 / 多维数据库;( 3)空间数据(如地图信息)( 4)工程数据(如建筑、集成电路的信息)( 5)文本和多媒体数据(如文本、图象、音频、视频数据)( 6)时间相关的数据(如历史数据或股票交换数据)( 7)万维网(
3、如半结构化的 HTML,结构化的 XML以及其他网络信息)n 1.4 数据挖掘的步骤( 1)数据清理(消除噪音或不一致数据,补缺);( 2)数据集成(多种数据源可以组合在一起);( 3)数据选择(从数据库中提取相关的数据);( 4)数据变换(变换成适合挖掘的形式);( 5)数据挖掘(使用智能方法提取数据模式);( 6)模式评估(识别提供知识的真正有趣模式);( 7)知识表示(可视化和知识表示技术)。n 1.5 支持数据挖掘的关键技术( 1)数据库 / 数据仓库 / OLAP( 2)数学 / 统计(回归分析:多元回归、自回归;判别分析: Bayes判别、 Fisher判别、非参数判别;主成分分析
4、、相关性分析;模糊集;粗糙集)( 3)机器学习(聚类分析;关联规则;决策树;范例推理;贝叶斯网络;神经网络;支持向量机;遗传算法)( 4)可视化:将数据、知识和规则转化为图形表现的形式。n 1.6 数据仓库( 1) 数据仓库 是一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理人员的决策。( 2)数据仓库是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和 联机分析处理 (OLAP)。( 3)数据仓库的逻辑结构是多维数据库。数据仓库的实际物理结构可以是关系数据存储或 多维数据方 (Cube)。( 4)数据方是由 维度 (
5、 Dimension)和 度量 ( Measure)定义的一种数据集,度量存放在由维度索引的数据方单元中。维度对应于模式中的属性组,度量对应于与主题相关的事实数据。数据方的 物化 是指预计算并存储全部或部分单元中的度量。n 1.7 数据仓库的模型( 1) 星形模式 :最常见模型;其中数据仓库包括一个大的、包含大批数据、不含冗余的中心表(事实表);一组小的附属表(维表),每维一个。( 2) 雪花模式 :雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。( 3) 星系模式 :多个事实表共享维表。这种模式可以看作星形模式集,因此称为星系模式,或事实星座。n1.8 典
6、型的 OLAP操作( 1) OLAP是一种多维数据分析技术。包括汇总、合并和聚集等功能,以及从不同的角度观察信息的能力。( 2) 上卷 :从某一维度的更高概念层次观察数据方,获得更概要的数据。它通过沿维的概念分层向上或维归约来实现。( 3) 下钻 :下钻是上卷的逆操作。它从某一维度的更低概念层次观察数据方,获得更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。( 4) 切片和切块 :切片操作在给定的数据方的选择一个维的部分属性,获得一个较小的子数据方。切块操作通过对选择两个或多个维的部分属性,获得一个较小的子数据方。( 5) 转轴 :是一种改变数据方二维展现形式的操作。它将数据方的二维展现中的某些维度由行改为列,或由列改为行。二、数据准备n 现实世界的数据是 不完整的 (有些感兴趣的属性缺少属性值,或仅包含聚集数据), 含噪音的 (包含错误,或存在偏离期望的异常值), 不一致的 (例如,用于商品分类的部门编码存在差异)。n 需要 数据清理 、 数据集成 、 数据选择 、 数据变换 等技术对数据进行处理。