2.第二章-数据准备统计学专业---副本.ppt

上传人:99****p 文档编号:1572728 上传时间:2019-03-06 格式:PPT 页数:114 大小:4.35MB
下载 相关 举报
2.第二章-数据准备统计学专业---副本.ppt_第1页
第1页 / 共114页
2.第二章-数据准备统计学专业---副本.ppt_第2页
第2页 / 共114页
2.第二章-数据准备统计学专业---副本.ppt_第3页
第3页 / 共114页
2.第二章-数据准备统计学专业---副本.ppt_第4页
第4页 / 共114页
2.第二章-数据准备统计学专业---副本.ppt_第5页
第5页 / 共114页
点击查看更多>>
资源描述

1、*第二章 数据预处理1为什么要进行数据挖掘 ?现实世界的数据是脏的 不完整 : 缺乏属性值,缺乏有意义的属性,或者只包含了汇总数据e.g., occupation=“ ” 有噪声 : 包含错误的数据或异常值e.g., Salary=“-10” 不一致 : 在代码或者名字中存在矛盾或不一致e.g., Age=“42” Birthday=“03/07/1997”e.g., Was rating “1,2,3”, now rating “A, B, C”e.g., discrepancy between duplicate records*2为什么数据预处理重要 ? No quality data,

2、 no quality mining results! Quality decisions must be based on quality datae.g., duplicate or missing data may cause incorrect or even misleading statistics. Data warehouse needs consistent integration of quality data Data extraction, cleaning, and transformation comprises the majority of the work o

3、f building a data warehouse*3*4数据预处理的主要内容:*数据预处理的主要内容一、原始数据的表述二、数据清理三、数据变换四、元组的归约五、属性的归约5数据样本是数据挖掘过程的基本组成部分。一、原始数据 的表述*6每个样本都用几个特征来描述,每个特征有不同类型的值。*常见的数据类型 有:数值型和分类型 。数值型包括实型变量和整型 变量注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。 7*一 个有两个值的分类型 变量 :分类型变量的两个值可以平等或不平等。原则上 可以转化成一个二进制的数值型变量,这种数值型变量有两个值: 0或 1;而 有 N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有 N个值。8*例如 :如果变量 “ 眼睛颜色 ” 有 4个值:黑色、蓝色、绿色、褐色。特征值 编码黑色 1000蓝色 0100绿色 0010褐色 00019*变量 的分类: 连续型变量和离散型变量 。连续型变量 也认为是定量型或是量度 型,是指 在一定区间内可以任意取值的变量。离散 型变量 也叫定性型 变量,是指 全部可能取到的不相同的值是有限个的变量。注 : 一种特殊类型的离散型变量是周期变量,例如:星期、月和年中的日期。10

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。