关联分析: 基本概念和算法 第6 章 关联分析: 基本概念和算法6.1 问题定义 l 关联分析 l 频繁项集 l 关联规则 关联规则强度: u 支持度 u 置信度 l 关联规则发现 l 挖掘关联规则的策略定义: 关联分析(association analysis ) l 关联分析用于发现隐藏在大型数据集中的令人感 兴趣的联系,所发现的模式通常用关联规则或频 繁项集的形式表示。 l 关联分析可以应用于生物信息学、医疗诊断、网 页挖掘、科学数据分析等 Rules Discovered: Diaper - Beer定义: 频繁项集(Frequent Itemset ) l 项集(Itemset) 包含0 个或多个项的集合 u 例子: Milk, Bread, Diaper k- 项集 u 如果一个项集包含k个项 l 支持度计数(Support count )( ) 包含特定项集的事务个数 例如: (Milk, Bread,Diaper) = 2 l 支持度(Support ) 包含项集的事务数与总事务数的比值 例如: s(Milk, Bread, Diaper) = 2/5 l 频繁项集(F