大数据经典关联分析算法Apriori讲解.ppt

上传人:99****p 文档编号:1419595 上传时间:2019-02-25 格式:PPT 页数:20 大小:704KB
下载 相关 举报
大数据经典关联分析算法Apriori讲解.ppt_第1页
第1页 / 共20页
大数据经典关联分析算法Apriori讲解.ppt_第2页
第2页 / 共20页
大数据经典关联分析算法Apriori讲解.ppt_第3页
第3页 / 共20页
大数据经典关联分析算法Apriori讲解.ppt_第4页
第4页 / 共20页
大数据经典关联分析算法Apriori讲解.ppt_第5页
第5页 / 共20页
点击查看更多>>
资源描述

1、n Apriori算法是挖掘布尔关联规则频繁项集的算法n Apriori算法利用频繁项集性质的先验知识( prior knowledge),通过逐层搜索的迭代方法,即将 k-项集用于探察 (k+1)-项集,来穷尽数据集中的所有频繁项集。n 先找到频繁 1-项集集合 L1,然后用 L1找到频繁 2-项集集合 L2,接着用 L2找 L3,直到找不到频繁 k-项集,找每个 Lk需要一次数据库扫描。APRIORI算法n Apriori算法利用的是 Apriori性质:频繁项集的所有非空子集也必须是频繁的。n 模式不可能比 A更频繁的出现n Apriori算法是反单调的,即一个集合如果不能通过测试,则该

2、集合的所有超集也不能通过相同的测试。n Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率算法应用n 经典的关联规则数据挖掘算法 Apriori 算法广泛应用于各种领域,通过对数据的关联性进行了分析和挖掘,挖掘出的这些信息在决策制定过程中具有重要的参考价值。n Apriori算法广泛应用于商业中,应用于消费市场价格分析中,它能够很快的求出各种产品之间的价格关系和它们之间的影响。通过数据挖掘,市场商人可以瞄准目标客户,采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段,从而极大地减少广告预算和增加收入。百货商场、超市和一些老字型大小的零售店也在进行数据挖掘,以便

3、猜测这些年来顾客的消费习惯。n Apriori算法应用于网络安全领域,比如时候入侵检测技术中。早期中大型的电脑系统中都收集审计信息来建立跟踪档,这些 审计跟踪 的目的多是为了 性能测试 或计费,因此对攻击检测提供的有用信息比较少。它通过模式的学习和训练可以发现网络用户的异常行为模式。采用作用度的 Apriori算法削弱了 Apriori算法的挖掘结果规则,是网络 入侵检测系统 可以快速的发现用户的行为模式,能够快速的锁定攻击者,提高了基于关联规则的入侵检测系统的检测性。n Apriori算法应用于高校管理中。随着高校贫困生人数的不断增加,学校管理部门资助工作难度也越加增大。针对这一现象,提出一

4、种基于数据挖掘算法的解决方法。将关联规则的 Apriori算法应用到贫困助学体系中,并且针对经典 Apriori挖掘算法存在的不足进行改进,先将事务数据库映射为一个 布尔 矩阵,用一种逐层递增的思想来动态的分配内存进行存储,再利用向量求 “与 “运算,寻找频繁项集。实验结果表明,改进后的 Apriori算法在运行效率上有了很大的提升,挖掘出的规则也可以有效地辅助学校管理部门有针对性的开展贫困助学工作。算法思想n 该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第 1步找到的频集产

5、生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了 递归 的方法。 算法实现Apriori算法利用频繁项集性质的先验知识( prior knowledge),通过逐层搜索的迭代方法,即将 k-项集用于探察 (k+1)-项集,来穷尽数据集中的所有频繁项集。先找到频繁 1-项集集合 L1,然后用 L1找到频繁 2-项集集合 L2,接着用 L2找 L3,直到找不到频繁 k-项集,找每个 Lk需要一次数据库扫描。n Apriori算法由 连接 和 剪枝 两

6、个步骤组成。n 连接 :为了找 Lk,通过 Lk-1与自己连接产生候选 k-项集的集合,该候选 k项集记为 Ck。n Lk-1中的两个元素 L1和 L2可以执行连接操作 的条件是n Ck是 Lk的超集,即它的成员可能不是频繁的,但是所有频繁的 k-项集都在 Ck中(为什么?)。因此可以通过扫描数据库,通过计算每个 k-项集的支持度来得到 Lk 。n 为了减少计算量,可以使用 Apriori性质,即如果一个 k-项集的 (k-1)-子集不在 Lk-1中,则该候选不可能是频繁的,可以直接从 Ck删除。n 算法: Apriori。使用逐 层 迭代方法基于候 选产 生找出 频 繁 项 集。n 输 入:

7、n D:实 物数据 库 ;n Min_sup:最小支持度 计 数 阈值 。n 输 出: L: D中的 频 繁 项 集。n 方法:n L1=find_frequent_1-itemsets(D);n for(k=2;Lk-1 !=; k+)n Ck=apriori_gen(Lk-1);n For each 事务 t D/扫 描 D用于 计 数n Ct=subset(Ck,t);/得到 t的子集,它 们 是候 选n for each候 选 c C;n C.count+;n n Lk=c C|c.count=min_stpn n return L=UkLk;Apriori伪 代 码n Procedu

8、re apriori_gen(Lk-1:frequent(k-1)-itemsets)n for each项集 l1 Lk-1n for each项集 l2 Lk-1n If (l11=l21) (l12=l22) (l1k-2=l2k-2) (l1k-1=l2k-1) thenn c=l1l2/连 接步: 产 生候 选n if has_infrequent_subset(c,Lk-1)thenn delete c;/剪枝部; 删 除非 频 繁的候 选n else add c to Ck;n n return Ck;n procedure has_infrequent_subset (c:ca

9、ndidate k-itemset;n Lk-1: frequent (k-1)-itemset)/使用先 验 知 识n for each(k-1)-subset s of cn If s Lk-1thenn return TRUE;n return FALSE;Database TDB1st scanC1 L1L2C2 C22nd scanC3 L33rd scanTid Items10 A, C, D20 B, C, E30 A, B, C, E40 B, EItemset supA 2B 3C 3D 1E 3Itemset supA 2B 3C 3E 3ItemsetA, BA, CA, EB, CB, EC, EItemset supA, B 1A, C 2A, E 1B, C 2B, E 3C, E 2Itemset supA, C 2B, C 2B, E 3C, E 2ItemsetA,B,CB, C, EItemset supB, C, E 2

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。