ImageVerifierCode 换一换
格式:PPT , 页数:37 ,大小:427.50KB ,
资源ID:1420419      下载积分:12 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1420419.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘原语、语言和系统结构.ppt)为本站会员(99****p)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

数据挖掘原语、语言和系统结构.ppt

1、数据挖掘原语、语言和系统结构为什么要数据挖掘原语和语言?n 一个完全自动(不需要人为干预或指导)的数据挖掘机器只可能是 “一只疯了的怪兽 ”。q 会产生大量模式(重新把知识淹没)q 会涵盖所有数据,使得挖掘效率低下q 大部分有价值的模式集可能被忽略q 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性 令人不感兴趣。n 没有精确的指令和规则,数据挖掘系统就没法使用。n 用数据挖掘原语和语言来指导数据挖掘。数据挖掘原语的组成部分n 数据挖掘原语应该包括以下部分:q 说明数据库的部分或用户感兴趣的数据集q 要挖掘的知识类型q 用于指导挖掘的背景知识q 模式评估、兴趣度量q 如何显示发现的知识n

2、数据挖掘原语用于用户和数据挖掘系统通信,让用户能从不同的角度和深度审查和发现结果,并指导挖掘过程。说明数据挖掘任务的原语n 任务相关的数据q 数据库(仓库)名、数据立方体、选择条件、相关属性、分组条件n 挖掘的知识类型q 特征化、区分、关联、分类 /预测、聚类n 背景知识q 概念分层,关联的确信度n 模式兴趣度度量q 简单性、确定性、实用性、新颖性n 发现模式的可视化q 规则、表、图表、图、判定树 任务相关的数据n 用户感兴趣的只是数据库或数据仓库的一个子集。q 相关的操作: DB选择、投影、连接、聚集等; DW切片、切块q 初始数据关系n 数据子集选择过程产生的新的数据关系q 可挖掘的视图n

3、 用于数据挖掘相关任务的数据集任务相关的数据 例子n 挖掘加拿大顾客和他们常在 AllElectronics购买的商品间的关联规则q 数据库(仓库)名 ( e.g. AllElectronics_db)q 包含相关数据的表或数据立方体名 ( e.g. item, customer, purchases, item_sold)q 选择相关数据的条件(今年、加拿大)q 相关的属性或维( item表的 name和 price,customer表的 income和 age)要挖掘的知识类型n 要挖掘的知识类型将决定使用什么数据挖掘功能。q 概念描述(特征化和区分),关联规则,分类 /预测,聚类和演化分

4、析等n 模式模板q 又称元模式或元规则,用来指定所发现模式所必须匹配的条件,用于指导挖掘过程。关联规则元模式 例子n 研究 AllElectronics的顾客购买习惯,使用如下关联规则:q P(X: customer, W) Q(X, Y) =buys(X, Z)n X-customer表的关键字n P,Q-谓词变量n W, Y, Z-对象变量n 模板具体化q age(X, “3039”) income(X, “40k49k”)=buys(X, “VCR”) 2.2%, 60%q occupation(x, “student”) age(X, “2029”)=buys(X, “computer

5、”) 1.4%, 70%背景知识:概念分层n 背景知识是关于挖掘领域的知识q 概念分层是背景知识的一种,它允许在多个抽象层上发现知识。n 概念分层以树形结构的节点集来表示,其中每个节点本身代表一个概念,根节点称为 all,而叶节点则对应于维的原始数据值。q 概念分层中,自顶向底进行层的标识,即 all为 0层,向下依次为 1, 2, 3等层概念分层 上卷和下钻n 在概念分层中应用上卷操作(概化),使得用户可以使用较高层次概念替代较低层次概念q 可以在更有意义,更高、更抽象的层次观察数据,从而使发现的模式更加容易理解。q 上卷操作使得数据得到压缩,在这个压缩的数据集上进行挖掘可以减少 I/O操作,使得挖掘的效率提高。n 概念分层的下钻操作使用较低层概念代替较高层概念,从而使用户能够对过于一般化的数据做更详细分析。n 上卷和下钻操作让用户以不同视图观察数据,洞察隐藏的数据联系。n 概念分层的自动生成。n 在同一个维上,可能根据用户的观点不同,存在多个概念分层。

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。