ImageVerifierCode 换一换
格式:PPTX , 页数:38 ,大小:619.67KB ,
资源ID:1420386      下载积分:12 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1420386.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘概念与技术第三章.pptx)为本站会员(99****p)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

数据挖掘概念与技术第三章.pptx

1、数据挖掘概念与设计第三章 数据预处理 3.1 数据预处理 3.2 数据清理 3.3 数据集成 3.4 数据规约 3.5 数据变换与数据离散化 3.6小结第三章 数据预处理 3.3.1 为什么要对数据预处理低质量的数据将导致低质量的挖掘结果准确性完整性一致性时效性可信性可 解释性3.1 数据预处理高质量数据 3.1.2 数据处理的主要任务数据清理数据 集成数据归约数据变换3.1 数据预处理 现实世界的的数据一般是不完整的,有噪声的和不一致性的。数据清理试图填充缺失值,光滑噪声、 识别 离 群 点、纠正数据中的不一致。 3.2.1 缺失值 1) 忽略元组 :缺少类标号时通常这么做。但是忽略的元组其

2、他属性也不能用,即便是有用的。 2) 人工填写 :该方法很费事费时,数据集很大、缺失值很多时可能行不通。 3) 使用一个全局常量填充缺失值 :将缺失值的属性用同一个常量替换。(方法简单但不可靠) 4) 使用属性的中心度量(均值、中位数)填写缺失值 :对于正常的(对称的)数据分布,可以使用均值;对于倾斜数据(非对称)应该使用中位数。 5) 使用与给定元组同一类的所有样本的属性均值或中位数 : 利用另外一个属性分类数据,计算缺失值的属性值该是多少(均值或中位数)。 6) 使用最可能的值填充 : 利用回归、贝叶斯 形式化 方法 的 基于推理的工具或决策树归纳确定 。3.2 数据清理 3.2.2 噪声

3、数据噪声 :被测量的变量的随机误差或方差。 1) 分箱 : 排序后的数据按等 频(每个箱几个值)分 箱,然后 :用 箱均值光滑:箱中每个值都被替换为箱中的均值。用 箱中位数光滑:箱中的每一个只都被替换为该箱的中位数。用 箱边界光滑:给定箱中的最大和最小值同样被视为箱边界 , 箱 中每个值都被替换为最接近的边界值。 2) 回归 :可以用一个函数拟合数据来光滑数据。 3) 离 群 点分析 :通过如聚类来检测利群点。3.2 数据清理 3.2.3 数据清理作为一个过程 数据清理的第一步是偏差 检测。导致偏差的因素很多,认为输入错误、有意错误、数据退化(过时数据)、编码不一致、设备错误、系统错误 。 如

4、何 进行偏差检测?使用任何关于数据性质的知识: 元数据 ( 主要是描述数据 属性 (property)的 信息 ) 、数据的基本统计描述(均值、中位数、众数、方差、标准差等)、唯一性规则、连续性规则、空值规则。3.2 数据清理数据 挖掘经常需要数据集成 合并来自多个数据存储的数据 。3.3.1 实体识别问题模式 集成和对象匹配可能需要技巧,例如如何让计算机识别customer_id和另外一个数据库的 cust_number是同一属性? 利用元数据,每个属性的元数据包括名字、含义、数据类型和属性的值的允许范围,以及处理空值的规则。这些元数据可以用来帮助避免模式集成的错误,还有助于变化 数据3.3

5、 数据集成 3.3.2 冗余和相关分析一 个 属性如果 能由另一个或另一组属性 “ 导出 ” ,则这个属性可能是冗余的;属性或维命名的不一致也可能导致结果数据集的冗余 。1.标称数据的卡方相关检验2.数值数据的相关系数3.数值数据的协方差3.3 数据集成 1.标称数据的卡方相关检验假设 A有 c个不同的值, a1, a2,.a c. B有 r个不同的值, b1,b2,b r.则 包含属性 A和属性 B的元组可以使用一个列联表来表示,其中 A属性的 c个不同值构成表的列, B属性的 r个不同值构成表的行。令 (Ai, Bj)表示属性 A取 ai而属性 B取 bj的联合事件,即( A=ai, B=bj).3.3 数据集成

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。