ImageVerifierCode 换一换
格式:PPT , 页数:63 ,大小:1.04MB ,
资源ID:1420412      下载积分:15 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1420412.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘系列讲座五、概念描述:特征化与比较.ppt)为本站会员(99****p)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

数据挖掘系列讲座五、概念描述:特征化与比较.ppt

1、数据挖掘系列讲座五概念描述:特征化与比较两种不同类别的数据挖掘n 从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘q 描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。q 预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。什么是概念描述?n 概念描述是一种最简单的描述性挖掘q 当所描述的概念所指的是一类对象时,也称为 类描述n 概念指的是一类数据的集合q e.g. 研究生,大客户n 概念描述是指为数据的特征化和比较产生描述q 特征化:提供给定数据集的简洁汇总。q 区分:提供两个或多个数据集的比较描述。概念描述 VS. OLAPn 概念描述和数据

2、仓库的联机分析处理( OLAP)都跟数据概化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。n 两者的主要区别:q 概念描述n 可以处理复杂数据类型的属性及其聚集n 一个更加自动化的过程q OLAPn 实际使用的 OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型n 一个由用户控制的过程数据概化n 数据概化q 数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。n 主要方法:q 数据立方体( OLAP使用的方法)q

3、 面向属性的归纳方法12345概念层数据概化:数据立方体方法n 执行计算并将结果存储在数据立方体中n 优点:q 数据概化的一种有效实现q 可以计算各种不同的度量值n 比如: count(), sum(), average(), max()q 概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等n 缺点q 只能处理非数值类型的维和简单聚集数值类型的度量值(大部分现有商业系统中,只能为非数值类型的维产生概念分层)q 缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次面向属性的归纳n 一种面向 关系数据 查询的、基于 汇总 的 在线 数据分析技术。n 受数据类型和度量类型的约

4、束比较少n 面向属性归纳的基本思想:q 使用关系数据库查询收集任务相关的数据q 通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化q 通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作q 通过与用户交互,将广义关系以图表或规则等形式,提交给用户面向属性的归纳的基本步骤n 数据聚焦,获得初始工作关系n 进行面向属性的归纳q 基本操作是数据概化,对有 大量不同值的属性 ,进行进一步概化n 属性删除n 属性概化q 属性概化控制:控制概化过程,确定有多少不同的值才算是有 大量不同值的属性n 属性概化临界值控制n 概化关系临界值控制数据聚焦 ( 1)n 目的是获得跟任务相关的数据集,包括属性或维,在DMQL中他们由 in relevance to子句表示。n 示例:q DMQL: 描述 Big-University数据库中 研究生 的一般特征 use Big_University_DBmine characteristics as “Science_Students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in “graduate”

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。