1、1、关联规则挖掘、关联规则挖掘2、挖掘事务数据库的单维布尔关联规则、挖掘事务数据库的单维布尔关联规则3、挖掘事务数据库的多层关联规则、挖掘事务数据库的多层关联规则4、挖掘关系数据库和数据仓库的多维关联规则、挖掘关系数据库和数据仓库的多维关联规则5、由关联挖掘到相关分析、由关联挖掘到相关分析第六章第六章 挖掘大型数据库中的挖掘大型数据库中的关联规则关联规则v 关联规则挖掘发现大量数据中项集之间有趣的关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。关联或相关联系。v 从大量商务事务记录中发现有趣的关联关系,从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交可
2、以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。叉购物和贱卖分析。v 关联规则挖掘的一个典型的例子是关联规则挖掘的一个典型的例子是 购物篮分析购物篮分析。第六章第六章 挖掘大型数据库中的挖掘大型数据库中的关联规则关联规则第一节第一节 关联规则挖掘关联规则挖掘顾客 1顾客 4顾客 3顾客 2牛奶 面包谷类牛奶 面包糖 鸡旦牛奶 面包黄油糖 鸡旦市场分析员1、购物篮分析 问题问题 :什么商品组或集合顾客多半会在一次购:什么商品组或集合顾客多半会在一次购物时同时购买?物时同时购买? 回答:需要分析商店的顾客事务零售数据,并回答:需要分析商店的顾客事务零售数据,并在其上运行购物篮分析。在其上
3、运行购物篮分析。 分析的结果可以用于市场规划、广告策划、分分析的结果可以用于市场规划、广告策划、分类设计。例如,购物篮分析可以帮助经理设计类设计。例如,购物篮分析可以帮助经理设计不同的商店布局,以及规划什么商品降价。不同的商店布局,以及规划什么商品降价。第一节第一节 关联规则挖掘关联规则挖掘1、购物篮分析 策略一:经常购买的商品可以放近一些,以便策略一:经常购买的商品可以放近一些,以便进一步刺激这些商品一起销售。进一步刺激这些商品一起销售。 策略二:将经常购买的商品放在商店的两端,策略二:将经常购买的商品放在商店的两端,可能诱发买这些商品的顾客一路挑选其他商品可能诱发买这些商品的顾客一路挑选其
4、他商品。第一节第一节 关联规则挖掘关联规则挖掘1、购物篮分析 可以想象全域是商店中可利用的商品的集合,可以想象全域是商店中可利用的商品的集合,则每钟商品有一个则每钟商品有一个 布尔变量布尔变量 ,表示该商品的有,表示该商品的有无。每个篮子可以用一个布尔向量表示。可以无。每个篮子可以用一个布尔向量表示。可以分析布尔向量,得到反映商品分析布尔向量,得到反映商品 频繁关联频繁关联 或同时或同时购买的购买模式。购买的购买模式。 这些模式可以用关联规则的形式表示:这些模式可以用关联规则的形式表示:第一节第一节 关联规则挖掘关联规则挖掘1、购物篮分析 规则的规则的 支持度支持度 和和 置信度置信度 是两个
5、规则兴趣度度量是两个规则兴趣度度量,反映规则的有用性和确定性,上述规则的支,反映规则的有用性和确定性,上述规则的支持度持度 2%意味分析中的全部事务的意味分析中的全部事务的 2%同时购买同时购买计算机和操作系统软件。置信度计算机和操作系统软件。置信度 60%意味购买意味购买计算机的顾客计算机的顾客 60%也购买操作系统软件。也购买操作系统软件。 关联规则被认为是关联规则被认为是 有趣的有趣的 ,如果它满足,如果它满足 最小支最小支持度阈值持度阈值 和和 最小置信度阈值最小置信度阈值 。这些阈值可由用。这些阈值可由用户和领域专家设定。户和领域专家设定。第一节第一节 关联规则挖掘关联规则挖掘2、基
6、本概念设设 I=i1, i2, , im是是 项项 的集合,的集合, 。 设任务设任务相关的数据相关的数据 D是数据库事务的集合,其中每个是数据库事务的集合,其中每个 事事务务 T是项的集合,使得是项的集合,使得 TI。 每每 一个事务有一个一个事务有一个标识符标识符 TID。 设设 A是一个项集,事务是一个项集,事务 T包含包含 A,当且仅当当且仅当 AT。 关联规则关联规则 是形如是形如 AB的蕴涵式的蕴涵式,其中,其中 AI, BI, 且且 AB=。第一节第一节 关联规则挖掘关联规则挖掘2、基本概念 项的集合称为项的集合称为 项集项集 ,包含,包含 K个项的项集称为个项的项集称为 K-项
7、集项集 。集合。集合 computer, software是一个是一个2-项集。项集。 项集的出现频率项集的出现频率 是包含项集的事务数是包含项集的事务数简称为简称为 频率频率 、 支持计数支持计数 或或 计数计数 。 项集满足最小支持度,若项集满足最小支持度,若 项集的出现频率项集的出现频率 大大于或等于于或等于 最小支持度最小支持度 与与 D中中 事务总数事务总数 的的 乘积乘积 。 如果项集满足如果项集满足 最小支持度最小支持度 ,则称它为,则称它为 频繁项频繁项集。集。第一节第一节 关联规则挖掘关联规则挖掘2、基本概念关联规则的挖掘包含两个基本步骤:关联规则的挖掘包含两个基本步骤: 找出所有频繁项集:这些项集出现的频繁性找出所有频繁项集:这些项集出现的频繁性至少和预定义的最小支持计数一样。至少和预定义的最小支持计数一样。 由频繁项集产生强关联规则:这些规则必须由频繁项集产生强关联规则:这些规则必须满足最小支持度和最小置信度。满足最小支持度和最小置信度。挖掘关联规则的总体性能由第一步决定挖掘关联规则的总体性能由第一步决定 。第一节第一节 关联规则挖掘关联规则挖掘