1、*第二章 数据预处理1为什么要进行数据挖掘 ?现实世界的数据是脏的 不完整 : 缺乏属性值,缺乏有意义的属性,或者只包含了汇总数据e.g., occupation=“ ” 有噪声 : 包含错误的数据或异常值e.g., Salary=“-10” 不一致 : 在代码或者名字中存在矛盾或不一致e.g., Age=“42” Birthday=“03/07/1997”e.g., Was rating “1,2,3”, now rating “A, B, C”e.g., discrepancy between duplicate records*2为什么数据预处理重要 ? No quality data,
2、 no quality mining results! Quality decisions must be based on quality datae.g., duplicate or missing data may cause incorrect or even misleading statistics. Data warehouse needs consistent integration of quality data Data extraction, cleaning, and transformation comprises the majority of the work o
3、f building a data warehouse*3*4数据预处理的主要内容:*数据预处理的主要内容一、原始数据的表述二、数据清理三、数据变换四、元组的归约五、属性的归约5数据样本是数据挖掘过程的基本组成部分。一、原始数据 的表述*6每个样本都用几个特征来描述,每个特征有不同类型的值。*常见的数据类型 有:数值型和分类型 。数值型包括实型变量和整型 变量注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。 7*一 个有两个值的分类型 变量 :分类型变量的两个值可以平等或不平等。原则上 可以转化成一个二进制的数值型变量,这种数值型变量有两个值: 0或 1;而 有 N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有 N个值。8*例如 :如果变量 “ 眼睛颜色 ” 有 4个值:黑色、蓝色、绿色、褐色。特征值 编码黑色 1000蓝色 0100绿色 0010褐色 00019*变量 的分类: 连续型变量和离散型变量 。连续型变量 也认为是定量型或是量度 型,是指 在一定区间内可以任意取值的变量。离散 型变量 也叫定性型 变量,是指 全部可能取到的不相同的值是有限个的变量。注 : 一种特殊类型的离散型变量是周期变量,例如:星期、月和年中的日期。10