1、基于Hadoop数据挖掘算法研究导师: 学生: 123课题的背景基于Hadoop平台的Canopy-Kmeans并行算法课题总结4实验与结果分析相关概念 课题背景聚类算法及其分类Kmeans 算法Canopy 算法HadoopMapReduce聚类算法及其分类聚类是对点进行考察并按照某种距离测度将它们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间距离比较短,而不同簇中点之间距离较大。课题背景课题背景代表点 初始分类 分类是否合理 最终分类修改分类 NY聚类主要包括以下几个过程:数据准备、特征选择、提出、特征提取、聚类、聚类结果验证。动态的聚类过程步骤如下所示:课题背景Canopy 算法
2、是 McCallum提出的一种 、 、 不 准的聚类 法,是 对 数据 的一种 聚类算法。算法的 是: 算数据 距离 算法 度 的距离度 mec dsance, 数据分currency1一“分的,fi种fl之currency1 canopes。, 聚类中,比如 , 度 的度 距离,进一步 算,而使得数据 聚类”题 。KMeans算法是 Macueen 提出的,算法 , 相对, 多个学 。它是聚类算法中最的分 法,所的分 法是 一个包 n 个数据对 的数据,将数据分currency1 个,其中 个代表一个聚类,同一聚类中的对 相 度较 ,而不同聚类中的对 相 度较 。Hadoop Hadoop是
3、Apache 下 的分 算 以及 行分 理大 数据。Hadoop 最成“分是HDFS(Hadoop Distributed File System)MapReduce。课题背景课题背景pl pl pl Map Map Map Reduce Reduce pa pa npu Mappes Mddle ResulsReduces upuMapReduce 是一种 程 , 大 数据 大 的并行 算。概念Map Reduce ,是它们的主要 , 是数 程 的, 程 的特性。它极大地 便了 程人员 不会分 并行 程的情况下,将自己的程序 行 分 系 上。 当前的软件 是指 一个Map 数, 一键对 成一 的键对,指 并发的Reduce 数, 保证所 的键对中的 一个共享相同的键。MapReducecurrency1什么选择基Hadoop 的CanopyKmeans 并行算法?课题背景.随着大数据 代的到 同 硬件的提升也越越困” 导致 我们 机下 理大 数据遇到了前所未的阻力”度。. 的Kmeans算法 理 数据 效率 下、聚类质 差等弊端日益显露出,其 间 度较 且 理数据的能力存 局限性也尤currency1突出。3.基Hadoop 的CKmeans并行算法,算法 canopy算法改善Kmeans算法 初始聚类中的盲目性,并行 算 对算法并行扩展,使之能够适 对 数据理。课题背景