1、大型数据库中的关联规则挖掘什么是关联规则挖掘?n 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现n 有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。n 关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品(图 6.1)之间联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。n 例如,在同一次去超级市场,如果顾客购买牛奶,他也购买面包(和什么类型的面包)的可能性有多大
2、?通过帮助零售商有选择地经销和安排货架,这种信息可以引导销售。例如,将牛奶和面包尽可能放近一些,可以进一步刺激一次去商店同时购买这些商品。“尿布与啤酒 ” 典型关联分析案例n 采用关联模型比较典型的案例是 “尿布与啤酒 ”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30% 40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。购物篮分析n 假定作为 AllElectronics 的分店经理,你想更加了解你的顾客的购物习惯
3、。例如,你想知道 “什么商品组或集合顾客多半会在一次购物时同时购买? ”为回答你的问题,你可以在你的商店顾客事务零售数据上运行购物篮分析。分析结果可以用于市场规划、广告策划、分类设计。n 例如,购物篮分析可以帮助经理设计不同的商店布局。一种策略是:经常一块购买的商品可以放近一些,以便进一步刺激这些商品一起销售。例如,如果顾客购买计算机也倾向于同时购买财务软件,将硬件摆放离软件陈列近一点,可能有助于增加二者的销售。n 另一种策略是:将硬件和软件放在商店的两端,可能诱发买这些商品的顾客一路挑选其它商品。例如,在决定购买一台很贵的计算机之后,去看软件陈列,购买财务软件,路上可能看到安全系统,可能会决
4、定也买家庭安全系统。n 购物篮分析也可以帮助零售商规划什么商品降价出售。如果顾客趋向于同时购买计算机和打印机,打印机降价出售可能既促使购买打印机,又促使购买计算机。购物篮分析n 如果问题的全域是商店中所有商品的集合,则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示n 关联规则的两个兴趣度度量q 支持度q 置信度6.1.2 基本概念n 设 I = i1 , i2 ,., im 是项的集合。设任务相关的数据 D 是数据库事务的集合,其中每个事务T是项的集合,使得
5、 T I。每一个事务有一个标识符,称作 TID。设 A 是一个项集,事务 T 包含 A当且仅当 A T。n 关联规则是形如 A B 的蕴涵式,其中 A I, B I,并且 A B = 。规则 A B 在事务集 D 中成立,具有支持度 s,其中 s 是 D 中事务包含 A B(即, A 和 B 二者)的百分比。6.1.2 基本概念n 它是概率 P(A B)。规则 A B 在事务集 D 中具有置信度 c,如果 D 中包含 A 的事务同时也包含 B的百分比是 c。这是条件概率 P(B|A)。n support (A B ) = P(A B) (6.2)n confidence (A B ) = P(B|A) (6.3)