ImageVerifierCode 换一换
格式:PPT , 页数:57 ,大小:5.86MB ,
资源ID:1420393      下载积分:15 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1420393.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘概念与技术原书第2版第5章挖掘频繁模式、关联和相关.ppt)为本站会员(99****p)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

数据挖掘概念与技术原书第2版第5章挖掘频繁模式、关联和相关.ppt

1、 频繁模式是频繁的出现在数据集中的模式 如项集、子序或者子结构 动机:发现数据中蕴含的内在规律 那些产品经常被一起购买? -啤酒和尿布? 买了 PC之后接着都会买些什么? 哪种 DNA对这种新药敏感 我们能够自动的分类 WEB文档吗? 应用 购物篮分析、 WEB日志(点击流)分析、捆绑销售、 DNA序列分析等 揭示数据集的内在的、重要的特性 作为很多重要数据挖掘任务的基础 关联、相关和因果分析 序列、结构( e.g.子图)模式分析 时空、多媒体、时序和流数据中的模式分析 分类:关联分类 聚类分析:基于频繁模式的聚类 数据仓库:冰山方体计算 如果问题的全域是商店中所有商品的集合,则对每种商品都可

2、以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示( e.g. 0001001100,这种方法丢失了什么信息? ) 关联规则的两个兴趣度度量 支持度 置信度 通常,如果关联规则同时满足最小支持度阈值和最小置信度阈值,则此关联规则是有趣的 给定: 项的集合: I=i1,i2,.,in 任务相关数据 D是数据库事务的集合,每个事务 T则是项的集合,使得 每个事务由事务标识符 TID标识; A,B为两个项集,事务 T包含 A当且仅当 则关联规则是如下蕴涵式: 其中 并且 ,规则 在

3、事务集 D中成立,并且具有支持度 s和置信度 c 支持度 s是指事务集 D中包含 的百分比 置信度 c是指 D中包含 A的事务同时也包含 B的百分比 假设最小支持度阈值为 50%,最小置信度阈值为 50%,则有如下关联规则 A C (50%, 66.6%) C A (50%, 100%) 同时满足最小支持度阈值和最小置信度阈值的规则称作强规则Customerbuys diaperCustomerbuys bothCustomerbuys beer 项的集合 I=A,B,C,D,E,F 每个事务 T由事务标识符 TID标识,它是项的集合 TID(2000)=A,B,C 任务相关数据 D是数据库事

4、务的集合 基本概念 k项集 :包含 k个项的集合 牛奶,面包,黄油 是个 3项集 项集的频率 是指包含项集的事务数,简称为项集的 频率 、支持度计数 或 计数 项集的支持度有时称为 相对支持度 ,而出现的频率称作 绝对支持度 。如果项集 I的频率大于(最小支持度阈值 D中的事务总数),则称该项集 I为 频繁项集 。频繁 k项集的集合通常记作 Lk。 一般来说,关联规则的挖掘可以看作两步的过程: 找出所有频繁项集 该项集的每一个出现的频繁性 min_sup 由频繁项集产生强关联规则 即满足最小支持度和最小置信度的规则 主要挑战:会产生大量满足 min_sup的项集,尤其当 min_sup设置得低

5、的时候 E.g. 一个长度为 100的频繁项集 a1,a2,a 100包含的频繁项集的总个数为 如果不存在真超项集 Y使得 Y与 X在 S中有相同的支持度计数,则称项集 X在数据集 S中是闭的。项集 X是数据集 S中的闭频繁项集,如果 X在 S中是闭的和频繁的。项集 X是 S中的极大频繁项集(或极大项集),如果 X是频繁的,并且不存在超项集 Y使得 并且 Y在 S中是频繁的。 设 C是数据集 S中满足 min_sup的闭频繁项集的集合,令 M是S中满足 min_sup的极大频繁项集的集合。假定我们有 C和 M中每个项集的支持度计数,则 C和他的计数信息可以用来导出频繁项集的完整集合(我们称 C包含了关于频繁项集的完整信息)。 E.g. DB中只有两个事务 ; ,min_sup=1,则 C= :1; :2,M= :1 (显然 a1,a2,a 100 有个频繁超集a1,a2,a 100 )。

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。