1、关联分析 (笔记) 事物之间的关联关系包括:简单关联关系、序列关联关系。 简单关联规则 :属于无指导学习方法,不直接用于分类预测,只揭示事物内部的结构。 Spss modeler 提供了 APriori、 GRI、 Carma等经典算法。 APriori和 Carma属于同类算法。 序列关联: 关联具有前后顺序,通常与时间有关。 SPSS Modeler 提供了 sequence 算法; 数据格式如下:按照事务表存储,同事需要时间变量。 关联关系 简单关联关系 序列关联关系 Apriori 只能处理分类变量 数据可以是按事务表存储,亦可事实表存储。 算法为提高关联规则的产生效率而设计 GRI不
2、但可以处理分类变量,前项也可是数值变量 数据只能按照 事实表 存储 采用深度优先搜索策略实现算法 简单关联规则要分析的对象是事务 事务的储存方式有 事务表 和 事实表 两种方式。 事务表 顾客 ID 项集 1 A 1 D 2 B 2 D 3 A 3 C 事实表 顾客 ID 项目 A 项目 B 项目 C 项目 D 1 1 0 0 1 2 0 1 0 1 3 1 0 1 0 两种表 均表明,顾客 1购买了 AD两种物品,顾客 2购买了 BD两种物品,顾客三购买了 AC 两种物品。 关联规则有效性的测度指标 1、 支持度 support:所有购买记录中, A、 B同时被购买的比例。 2、 置信度 c
3、onfidence:在购买 A的事务中,购买 B的比例。 关联规则实用性的测度指标 1、 提升度 lift:(在购买 A的事务中,购买 B的比例) /(所有事务中,购买 B的比例) 2、 置信差 3、 置信率、正态卡方、信息差等等 简单关联关系实例 例 1 数据格式:事实表 算法 :Apriori 所有购买项目均选入前项 antecedent和后项 consequent。 输出结果的最低支持度是 10%; 本例设定的划分频繁项集的标准 大于最小支持度 10%。 最小置信度是 80%; 前项最多项目数: 5 本例中,三项以上没有超过 10%的支持度,所以不能形成三项以上的频繁项集,最大的频繁项集
4、 大小 是 2。 结论解释: 实例:包含前项 beer、 cannedveg的样本有 167个,在 1000个样本中 前项支持度 为 16.7%。 规则支持度 : 同时购买 beer、 cannedveg、 frozenmeal三项的支持度为 14.6%。 规则置信度 : 购买 beer、 cannedveg的客户中, 87.425%的人有购买 frozenmeal。 规则 2下, 购买 frozenmeal的可能性比购买 frozenmeal的支持度提高 2.895倍。 例 2 数据格式:事实表 算法 :Apriori 本例前项选择 性别和家乡 , 旨在 不同性别和地区客户的购买行为是否 存
5、在频繁项集。 由于 AGE 是数据类型变量,所以前项不能选入 AGE,可在 GRI算法中选入 AGE。 Sex=M 序列关联规则实例 例 1 数据格式:事务表 时间变量: time 算法: sequence 饮料 =啤酒:规则支持度 66.7%,规则置信度 100%。 饮料 =香肠:规则支持度 50%,规则置信度 75%。 啤酒 =香肠:规则支持度 50%,规则置信度 60%。 将最下置信度调整为 30%,结果为: 例 2 本例是客访问 网页的数据,包括浏览的内容和顺序等信息。模型旨在发现各类网页的浏览是否存在某种序列关系。 Customerguide:客户 ID URKcategory:网页浏览内容 sequenceID:浏览顺序,即时间顺序。 Flight= hotel,表示浏览航班网页的网民, 随后 86.6%的将浏览宾馆住宿的网页, 规则支持度 为 10.3%, 规则置信度 86.6%。 实例和支持度 都是前项的数据。