《数据挖掘》课程-数据预处理.ppt

上传人:99****p 文档编号:1419383 上传时间:2019-02-25 格式:PPT 页数:63 大小:630KB
下载 相关 举报
《数据挖掘》课程-数据预处理.ppt_第1页
第1页 / 共63页
《数据挖掘》课程-数据预处理.ppt_第2页
第2页 / 共63页
《数据挖掘》课程-数据预处理.ppt_第3页
第3页 / 共63页
《数据挖掘》课程-数据预处理.ppt_第4页
第4页 / 共63页
《数据挖掘》课程-数据预处理.ppt_第5页
第5页 / 共63页
点击查看更多>>
资源描述

1、数据预处理第二章 数据预处理n 为什么对数据进行预处理n 描述性数据汇总n 数据清理n 数据集成和变换n 数据归约n 离散化和概念分层生成为什么进行数据预处理?n 现实世界的数据是 “肮脏的 ” 数据多了,什么问题都会 出现q 不完整n 缺少数据值;缺乏某些重要属性;仅包含汇总数据;n e.g., occupation=“q 有噪声n 包含错误或者孤立点n e.g. Salary = -10q 数据不一致n e.g., 在编码或者命名上存在差异n e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C”n e.g., 重复记录间的不一致性n e.g., Age=“42” B

2、irthday=“03/07/1997”数据为什么会变 “脏 ”?n 不完整数据的成因q 数据收集的时候就缺乏合适的值q 数据收集时和数据分析时的不同考虑因素q 人为 /硬件 /软件 问题n 噪声数据(不正确的值)的成因q 数据收集工具的问题q 数据输入时的 人为 /计算机 错误q 数据传输中产生的错误n 数据不一致性的成因q 不同的数据源q 违反了函数依赖性数据预处理为什么是重要的?n 没有高质量的数据,就没有高质量的挖掘结果q 高质量的决策必须依赖高质量的数据n e.g. 重复值或者空缺值将会产生不正确的或者令人误导的统计q 数据仓库需要对高质量的数据进行一致地集成n 数据预处理将是构建数

3、据仓库或者进行数据挖掘的工作中占工作量最大的一个步骤数据质量的多维度量n 一个广为认可的多维度量观点:q 精确度q 完整度q 一致性q 合乎时机q 可信度q 附加价值q 可解释性n 跟数据本身的含义相关的q 内在的、上下文的、表象的以及可访问性数据预处理的主要任务n 数据清理q 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性n 数据集成q 集成多个数据库、数据立方体或文件n 数据变换q 规范化和聚集n 数据归约q 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果n 数据离散化q 数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要第二章 数据预处理n 为什么对数据进行预处理n 描述性数据汇总n 数据清理n 数据集成和变换n 数据归约n 离散化和概念分层生成描述性数据汇总n 动机:为了更好的理解数据q 获得数据的总体印像q 识别数据的典型特征q 凸显噪声或离群点n 度量数据的中心趋势q 均值、中位数、众数(模)、中列数n 度量数据的离散程度q 四分位数、四分位数极差、方差等

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。