1、第六章 挖掘频繁模式、关联和相关性:基本概念和方法报告人:唐忠任数据挖掘 概念与技术哪些模式是有趣的:模式评估方法哪些模式是有趣的?本节学习目标 本节首先考察为何关联规则也可能是无趣的并且可能是误导。 然后讨论如何用基于相关分析的附加度量加强支持度置信度框架。强规则不一定是有趣的 规则是否有趣可以主观或客观地评估。最终,只有用户能够评判一个给定的规则是否是有趣的,并且这种判断是主观的,可能因用户而异。然而,根据数据 “背后 ”的统计量,客观兴趣度度量可以用来清除无趣的规则,而不用用户提供。 “我们如何识别哪些强关联规则是真正有趣的? ”让我们考查下面的例子。一个误导的 “强 ”关联规则 假设我
2、们对分析涉及购买计算机游戏和录像的事务感兴趣。设 game表示包含计算机游戏的事务,而 video表示包含录像的事务。 在所分析的 10000个事务中,数据显示 6000个顾客事务包含计算机游戏, 7500个事务包含录像,而 4000个事务同时包含计算机游戏和录像。假设发现关联规则的数据挖掘程序在该数据上运行,使用最小支持度30%,最小置信度 60%。将发现下面的关联规则:从关联分析到相关分析 正如我们在上面已经看到的,支持度和置信度不足以过滤掉无趣的关联规则。为了处理这个问题,可以使用相关性度量来扩充关联规则的支持度置信度框架。这导致如下形式的相关规则(correlation rule)A=Bsupport, confidence, correlation 也就是说,相关规则不仅用支持度和置信度度量,而且还用项集 A和 B之间的相关性度量有许多不同的相关性度量可供选择。本节研究各种相关性度量,确定哪些度量适合挖掘大型数据集。提升度 提升度( lift)是一种简单的相关性度量,定义如下。项集 A的出现独立于项集 B的出现,如果 P(A B)=P(A)P(B);否则,作为事件,项集 A和 B是依赖的( dependent) 和相关的( correlated)。这个定义容易推广到两个以上的项集。 A和 B出现之间的提升度可以通过计算正式得到