第 5章关联规则主要内容v关联规则概述 vApriori算法 v序列模式 5.1 关联规则概述v 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为 关联 。 v 关联规则挖掘的一个典型例子是购物篮分析。 啤酒与尿布的故事v 关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联,并以规则的形式表达出来,这就是 关联规则 。基本概念v 一个样本称为一个 “事务 ” v 每个事务由多个属性来确定,这里的属性我们称为 “项 ” v 多个项组成的集合称为 “项集 ” k-项集 v由 k个项构成的集合 牛奶 、 啤酒 都是 1-项集; 牛奶,果冻 是 2-项集; 啤酒,面包,牛奶 是 3-项集。v每个事务其实就是一个项集 关联规则的表示v X和 Y是项集 v X称为规则 前项 (或者前件, antecedent)v Y称为规则 后项 (或者后件, consequent)v 支持度 s是数据库中包含 的事务占全部事务的百分比v 置信度 c是包含 的事务数与包含 X的事务数的比值