1、全国高校标准教材 云计算 姊妹篇,剖析大数据核心技术和实战应用大数据刘鹏 主编 张燕 张重生 张志立 副主编BIG DATA刘 鹏教授,清华大学博士。现任南京大数据研究院院长、中国信息协会大数据分会副会长 、中国大数据技术与应用联盟副 理事长。主持完成科研项目 25项,发表论文 80余篇,出版专业书籍 15本。获部级科技进步二等奖 4项、三等奖 4项。主编的 云计算 被全国高校普遍采用,被引用量排名中国计算机图书第一名。创办了知名的中国云计算( )和中国大数据( )网站。曾率队夺得 2002 PennySort国际计算机排序比赛冠军,两次夺得全国高校科技比赛最高奖,并三次夺得清华大学科技比赛最
2、高奖。荣获 “ 全军十大学习成才标兵 ” (排名第一)、南京 “ 十大杰出青年 ” 、江苏省中青年科学技术带头人、清华大学 “ 学术新秀 ” 等称号。3.1 数据挖掘概述全国高校标准教材 云计算 姊妹篇,剖析大数据核心技术和实战应用第三章 数据挖掘算法3.2 分类3.3 聚类3.1 数据挖掘概述3.5 预测规模习题3.6 数据挖掘算法综合应用3.4 关联规则of 6533.4 关联规则关联规则是数据挖掘中最活跃的研究方法之一,是指搜索业务系统中的所有细节或事务,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则,以获得存在于数据库中的不为人知的或不能确定的信息,它侧重于确定数据中不
3、同领域之间的联系,也是在无指导学习系统中挖掘本地模式的最普通形式。More应用市场: 市场 货篮分析、交叉销售( Crossing Sale)、部分分类( Partial Classification)、金融服务( Financial Service),以及通信、互联网、 电子商务 第三章 数据挖掘算法of 6543.4 关联规则 第三章 数据挖掘算法一般来说,关联规则挖掘是指从一个大型的数据集( Dataset)发现有趣的关联(Association)或相关关系( Correlation),即从数据集中识别出频繁出现的属性值集( Sets of Attribute Values),也称为频繁
4、项集( Frequent Itemsets,频繁集),然后利用这些频繁项集创建描述关联关系的规则的过程。3.4.1 关联 规则的概念关联规则挖掘 问题 :发现 所有的频繁项集是形成关联规则的基础。通过用户给定的最小支持度,寻找所有支持度大于或等于 Minsupport的频繁项集 。通过用户给定的最小可信度,在每个最大频繁项集中,寻找可信度不小于Minconfidence的关联规则。发现频繁项集 生成关联规则如何迅速高效地发现所有频繁项集,是关联规则挖掘的核心问题,也是衡量关联规则挖掘算法效率的重要标准。of 6553.4 关联规则 第三章 数据挖掘算法3.4.2 频繁 项集的产生及其经典算法格
5、结构( Lattice Structure)常常被用来枚举所有可能的项集。图 3-10 项集的格of 6563.4 关联规则 第三章 数据挖掘算法3.4.2 频繁 项集的产生及其经典算法格结构( Lattice Structure)常常被用来枚举所有可能的项集。查找频繁项目集经典的查找策略基于精简 集的 查找策略基于最大频繁 项集的 查找策略按照挖掘的策略不同经典的挖掘完全频繁项集方法基于广度优先搜索策略的关联规则算法基于深度优先搜索 策略 的算法Apriori算法 、 DHP算法FP-Growth算法 、 ECLAT算法COFI算法与 经典 查找不同 方法基于精简集的方法基于最大频繁项目集的
6、方法A-close算法MAFIA算法 、 GenMax算法DepthProject算法of 6573.4 关联规则 第三章 数据挖掘算法3.4.2 频繁 项集的产生及其经典算法1 Apriori算法Apriori算法基于频繁项集性质的先验知识,使用由下至上逐层搜索的迭代方法,即从频繁 1项集开始,采用频繁 k项集搜索频繁 k+1项集,直到不能找到包含更多项的频繁项集为止。Apriori算法由以下步骤组成,其中的核心步骤是连接步和剪枝步:生成频繁 1项集 L1连接步剪枝步生成频繁 k项集 Lk重复步骤( 2)( 4),直到不能产生新的频繁项集的集合为止,算法中止。性能瓶颈Apriori算法是一个
7、多趟搜索算法可能产生庞大的候选项集of 6583.4 关联规则 第三章 数据挖掘算法3.4.2 频繁 项集的产生及其经典算法2 FP-Growth算法频繁模式树增长算法( Frequent Pattern Tree Growth)采用 分而治之的基本思想,将数据库中的频繁项集压缩到一棵频繁模式树中,同时保持项集之间的关联关系。然后将这棵压缩后的频繁模式树分成一些条件子树,每个条件子树对应一个频繁项,从而获得频繁项集,最后进行关联规则挖掘 。FP-Growth算法由以下步骤组成:扫描事务数据库 D,生成频繁1项集 L1将频繁 1项集 L1按照支持度递减顺序排序,得到排序后的项集 L1构造 FP树通过后缀模式与条件 FP树产生的频繁模式连接实现模式增长1234 图 3-11 FP树的构造of 6593.4 关联规则 第三章 数据挖掘算法3.4.2 频繁 项集的产生及其经典算法3辛普森悖论虽然关联规则挖掘可以发现项目之间的有趣关系 , 在某些情况下,隐藏的变量可能会导致观察到的一对变量之间的联系消失或逆转方向,这种现象就是所谓的辛普森悖论( Simpsons Paradox )。为了避免辛普森悖论的出现,就需要斟酌各个分组的权重,并以一定的系数去消除以分组数据基数差异所造成的影响。同时必须了解清楚情况,是否存在潜在因素,综合考虑。of 6510