关于Weka的数据关联规则分析实验班级市场091姓名杨超学号2009160121061.实验基本原理及目的关联规则的定义假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction是I的非空子集,即,每一个交易都与一个唯一的标识符TID(TransactionID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。在本实验中,我们对前面的“bank-data-final.arff”作关联规则分析,使用Apriori算法。下面我们简单描述一下Apriori算法的步骤。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至