数据挖掘系列讲座三、数据预处理.ppt

上传人:99****p 文档编号:1420409 上传时间:2019-02-25 格式:PPT 页数:35 大小:952KB
下载 相关 举报
数据挖掘系列讲座三、数据预处理.ppt_第1页
第1页 / 共35页
数据挖掘系列讲座三、数据预处理.ppt_第2页
第2页 / 共35页
数据挖掘系列讲座三、数据预处理.ppt_第3页
第3页 / 共35页
数据挖掘系列讲座三、数据预处理.ppt_第4页
第4页 / 共35页
数据挖掘系列讲座三、数据预处理.ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

1、数据挖掘系列讲座三7-8王 灿数据挖掘0703004数据预处理为什么要预处理数据?n 现实世界的数据是 “肮脏的 ” 数据多了,什么问题都会出现q 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据q 含噪声的:包含错误或者 “孤立点 ”q 不一致的:在编码或者命名上存在差异n 没有高质量的数据,就没有高质量的挖掘结果q 高质量的决策必须依赖高质量的数据q 数据仓库需要对高质量的数据进行一致地集成数据质量的多维度量n 一个广为认可的多维度量观点:q 精确度q 完整度q 一致性q 合乎时机q 可信度q 附加价值q 可访问性n 跟数据本身的含义相关的q 内在的、上下文的、表象的数据预处理的主要

2、任务n 数据清理q 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性n 数据集成q 集成多个数据库、数据立方体或文件n 数据变换q 规范化和聚集n 数据归约q 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果n 数据离散化q 数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要空缺值n 数据并不总是完整的q 例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入n 引起空缺值的原因q 设备异常q 与其他已有数据不一致而被删除q 因为误解而没有被输入的数据q 在输入时,有些数据应为得不到重视而没有被输入q 对数据的改变没有进行日志记载

3、n 空缺值要经过推断而补上如何处理空缺值n 忽略元组:当类标号缺少时通常这么做(假定挖掘任务涉及分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。n 人工填写空缺值:工作量大,可行性低n 使用一个全局变量填充空缺值:比如使用 unknown或-n 使用属性的平均值填充空缺值n 使用与给定元组属同一类的所有样本的平均值n 使用最可能的值填充空缺值:使用像 Bayesian公式或判定树这样的基于推断的方法噪声数据n 噪声:一个测量变量中的随机错误或偏差n 引起噪声数据的原因q 数据收集工具的问题q 数据输入错误q 数据传输错误q 技术限制q 命名规则的不一致如何处理噪声数据 n 分箱 (binning):q 首先排序数据,并将他们分到等深的箱中q 然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等n 聚类:q 监测并且去除孤立点n 计算机和人工检查结合q 计算机检测可疑数据,然后对它们进行人工判断n 回归q 通过让数据适应回归函数来平滑数据

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。