数据挖掘.pptx

上传人:99****p 文档编号:1420363 上传时间:2019-02-25 格式:PPTX 页数:22 大小:530.07KB
下载 相关 举报
数据挖掘.pptx_第1页
第1页 / 共22页
数据挖掘.pptx_第2页
第2页 / 共22页
数据挖掘.pptx_第3页
第3页 / 共22页
数据挖掘.pptx_第4页
第4页 / 共22页
数据挖掘.pptx_第5页
第5页 / 共22页
点击查看更多>>
资源描述

1、第六章 挖掘频繁模式、关联和相关性:基本概念和方法报告人:唐忠任数据挖掘 概念与技术哪些模式是有趣的:模式评估方法哪些模式是有趣的?本节学习目标 本节首先考察为何关联规则也可能是无趣的并且可能是误导。 然后讨论如何用基于相关分析的附加度量加强支持度置信度框架。强规则不一定是有趣的 规则是否有趣可以主观或客观地评估。最终,只有用户能够评判一个给定的规则是否是有趣的,并且这种判断是主观的,可能因用户而异。然而,根据数据 “背后 ”的统计量,客观兴趣度度量可以用来清除无趣的规则,而不用用户提供。 “我们如何识别哪些强关联规则是真正有趣的? ”让我们考查下面的例子。一个误导的 “强 ”关联规则 假设我

2、们对分析涉及购买计算机游戏和录像的事务感兴趣。设 game表示包含计算机游戏的事务,而 video表示包含录像的事务。 在所分析的 10000个事务中,数据显示 6000个顾客事务包含计算机游戏, 7500个事务包含录像,而 4000个事务同时包含计算机游戏和录像。假设发现关联规则的数据挖掘程序在该数据上运行,使用最小支持度30%,最小置信度 60%。将发现下面的关联规则:从关联分析到相关分析 正如我们在上面已经看到的,支持度和置信度不足以过滤掉无趣的关联规则。为了处理这个问题,可以使用相关性度量来扩充关联规则的支持度置信度框架。这导致如下形式的相关规则(correlation rule)A=Bsupport, confidence, correlation 也就是说,相关规则不仅用支持度和置信度度量,而且还用项集 A和 B之间的相关性度量有许多不同的相关性度量可供选择。本节研究各种相关性度量,确定哪些度量适合挖掘大型数据集。提升度 提升度( lift)是一种简单的相关性度量,定义如下。项集 A的出现独立于项集 B的出现,如果 P(A B)=P(A)P(B);否则,作为事件,项集 A和 B是依赖的( dependent) 和相关的( correlated)。这个定义容易推广到两个以上的项集。 A和 B出现之间的提升度可以通过计算正式得到

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。