数据挖掘原语、语言和系统结构.ppt

上传人:99****p 文档编号:1420419 上传时间:2019-02-25 格式:PPT 页数:37 大小:427.50KB
下载 相关 举报
数据挖掘原语、语言和系统结构.ppt_第1页
第1页 / 共37页
数据挖掘原语、语言和系统结构.ppt_第2页
第2页 / 共37页
数据挖掘原语、语言和系统结构.ppt_第3页
第3页 / 共37页
数据挖掘原语、语言和系统结构.ppt_第4页
第4页 / 共37页
数据挖掘原语、语言和系统结构.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

1、数据挖掘原语、语言和系统结构为什么要数据挖掘原语和语言?n 一个完全自动(不需要人为干预或指导)的数据挖掘机器只可能是 “一只疯了的怪兽 ”。q 会产生大量模式(重新把知识淹没)q 会涵盖所有数据,使得挖掘效率低下q 大部分有价值的模式集可能被忽略q 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性 令人不感兴趣。n 没有精确的指令和规则,数据挖掘系统就没法使用。n 用数据挖掘原语和语言来指导数据挖掘。数据挖掘原语的组成部分n 数据挖掘原语应该包括以下部分:q 说明数据库的部分或用户感兴趣的数据集q 要挖掘的知识类型q 用于指导挖掘的背景知识q 模式评估、兴趣度量q 如何显示发现的知识n

2、数据挖掘原语用于用户和数据挖掘系统通信,让用户能从不同的角度和深度审查和发现结果,并指导挖掘过程。说明数据挖掘任务的原语n 任务相关的数据q 数据库(仓库)名、数据立方体、选择条件、相关属性、分组条件n 挖掘的知识类型q 特征化、区分、关联、分类 /预测、聚类n 背景知识q 概念分层,关联的确信度n 模式兴趣度度量q 简单性、确定性、实用性、新颖性n 发现模式的可视化q 规则、表、图表、图、判定树 任务相关的数据n 用户感兴趣的只是数据库或数据仓库的一个子集。q 相关的操作: DB选择、投影、连接、聚集等; DW切片、切块q 初始数据关系n 数据子集选择过程产生的新的数据关系q 可挖掘的视图n

3、 用于数据挖掘相关任务的数据集任务相关的数据 例子n 挖掘加拿大顾客和他们常在 AllElectronics购买的商品间的关联规则q 数据库(仓库)名 ( e.g. AllElectronics_db)q 包含相关数据的表或数据立方体名 ( e.g. item, customer, purchases, item_sold)q 选择相关数据的条件(今年、加拿大)q 相关的属性或维( item表的 name和 price,customer表的 income和 age)要挖掘的知识类型n 要挖掘的知识类型将决定使用什么数据挖掘功能。q 概念描述(特征化和区分),关联规则,分类 /预测,聚类和演化分

4、析等n 模式模板q 又称元模式或元规则,用来指定所发现模式所必须匹配的条件,用于指导挖掘过程。关联规则元模式 例子n 研究 AllElectronics的顾客购买习惯,使用如下关联规则:q P(X: customer, W) Q(X, Y) =buys(X, Z)n X-customer表的关键字n P,Q-谓词变量n W, Y, Z-对象变量n 模板具体化q age(X, “3039”) income(X, “40k49k”)=buys(X, “VCR”) 2.2%, 60%q occupation(x, “student”) age(X, “2029”)=buys(X, “computer

5、”) 1.4%, 70%背景知识:概念分层n 背景知识是关于挖掘领域的知识q 概念分层是背景知识的一种,它允许在多个抽象层上发现知识。n 概念分层以树形结构的节点集来表示,其中每个节点本身代表一个概念,根节点称为 all,而叶节点则对应于维的原始数据值。q 概念分层中,自顶向底进行层的标识,即 all为 0层,向下依次为 1, 2, 3等层概念分层 上卷和下钻n 在概念分层中应用上卷操作(概化),使得用户可以使用较高层次概念替代较低层次概念q 可以在更有意义,更高、更抽象的层次观察数据,从而使发现的模式更加容易理解。q 上卷操作使得数据得到压缩,在这个压缩的数据集上进行挖掘可以减少 I/O操作,使得挖掘的效率提高。n 概念分层的下钻操作使用较低层概念代替较高层概念,从而使用户能够对过于一般化的数据做更详细分析。n 上卷和下钻操作让用户以不同视图观察数据,洞察隐藏的数据联系。n 概念分层的自动生成。n 在同一个维上,可能根据用户的观点不同,存在多个概念分层。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。