数据挖掘概念与技术原书第2版第5章挖掘频繁模式、关联和相关.ppt

上传人:99****p 文档编号:1420393 上传时间:2019-02-25 格式:PPT 页数:57 大小:5.86MB
下载 相关 举报
数据挖掘概念与技术原书第2版第5章挖掘频繁模式、关联和相关.ppt_第1页
第1页 / 共57页
数据挖掘概念与技术原书第2版第5章挖掘频繁模式、关联和相关.ppt_第2页
第2页 / 共57页
数据挖掘概念与技术原书第2版第5章挖掘频繁模式、关联和相关.ppt_第3页
第3页 / 共57页
数据挖掘概念与技术原书第2版第5章挖掘频繁模式、关联和相关.ppt_第4页
第4页 / 共57页
数据挖掘概念与技术原书第2版第5章挖掘频繁模式、关联和相关.ppt_第5页
第5页 / 共57页
点击查看更多>>
资源描述

1、 频繁模式是频繁的出现在数据集中的模式 如项集、子序或者子结构 动机:发现数据中蕴含的内在规律 那些产品经常被一起购买? -啤酒和尿布? 买了 PC之后接着都会买些什么? 哪种 DNA对这种新药敏感 我们能够自动的分类 WEB文档吗? 应用 购物篮分析、 WEB日志(点击流)分析、捆绑销售、 DNA序列分析等 揭示数据集的内在的、重要的特性 作为很多重要数据挖掘任务的基础 关联、相关和因果分析 序列、结构( e.g.子图)模式分析 时空、多媒体、时序和流数据中的模式分析 分类:关联分类 聚类分析:基于频繁模式的聚类 数据仓库:冰山方体计算 如果问题的全域是商店中所有商品的集合,则对每种商品都可

2、以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示( e.g. 0001001100,这种方法丢失了什么信息? ) 关联规则的两个兴趣度度量 支持度 置信度 通常,如果关联规则同时满足最小支持度阈值和最小置信度阈值,则此关联规则是有趣的 给定: 项的集合: I=i1,i2,.,in 任务相关数据 D是数据库事务的集合,每个事务 T则是项的集合,使得 每个事务由事务标识符 TID标识; A,B为两个项集,事务 T包含 A当且仅当 则关联规则是如下蕴涵式: 其中 并且 ,规则 在

3、事务集 D中成立,并且具有支持度 s和置信度 c 支持度 s是指事务集 D中包含 的百分比 置信度 c是指 D中包含 A的事务同时也包含 B的百分比 假设最小支持度阈值为 50%,最小置信度阈值为 50%,则有如下关联规则 A C (50%, 66.6%) C A (50%, 100%) 同时满足最小支持度阈值和最小置信度阈值的规则称作强规则Customerbuys diaperCustomerbuys bothCustomerbuys beer 项的集合 I=A,B,C,D,E,F 每个事务 T由事务标识符 TID标识,它是项的集合 TID(2000)=A,B,C 任务相关数据 D是数据库事

4、务的集合 基本概念 k项集 :包含 k个项的集合 牛奶,面包,黄油 是个 3项集 项集的频率 是指包含项集的事务数,简称为项集的 频率 、支持度计数 或 计数 项集的支持度有时称为 相对支持度 ,而出现的频率称作 绝对支持度 。如果项集 I的频率大于(最小支持度阈值 D中的事务总数),则称该项集 I为 频繁项集 。频繁 k项集的集合通常记作 Lk。 一般来说,关联规则的挖掘可以看作两步的过程: 找出所有频繁项集 该项集的每一个出现的频繁性 min_sup 由频繁项集产生强关联规则 即满足最小支持度和最小置信度的规则 主要挑战:会产生大量满足 min_sup的项集,尤其当 min_sup设置得低

5、的时候 E.g. 一个长度为 100的频繁项集 a1,a2,a 100包含的频繁项集的总个数为 如果不存在真超项集 Y使得 Y与 X在 S中有相同的支持度计数,则称项集 X在数据集 S中是闭的。项集 X是数据集 S中的闭频繁项集,如果 X在 S中是闭的和频繁的。项集 X是 S中的极大频繁项集(或极大项集),如果 X是频繁的,并且不存在超项集 Y使得 并且 Y在 S中是频繁的。 设 C是数据集 S中满足 min_sup的闭频繁项集的集合,令 M是S中满足 min_sup的极大频繁项集的集合。假定我们有 C和 M中每个项集的支持度计数,则 C和他的计数信息可以用来导出频繁项集的完整集合(我们称 C包含了关于频繁项集的完整信息)。 E.g. DB中只有两个事务 ; ,min_sup=1,则 C= :1; :2,M= :1 (显然 a1,a2,a 100 有个频繁超集a1,a2,a 100 )。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。