基于Hadoop数据挖掘算法研究.ppt

上传人:滴答 文档编号:1290109 上传时间:2019-01-28 格式:PPT 页数:30 大小:3.71MB
下载 相关 举报
基于Hadoop数据挖掘算法研究.ppt_第1页
第1页 / 共30页
基于Hadoop数据挖掘算法研究.ppt_第2页
第2页 / 共30页
基于Hadoop数据挖掘算法研究.ppt_第3页
第3页 / 共30页
基于Hadoop数据挖掘算法研究.ppt_第4页
第4页 / 共30页
基于Hadoop数据挖掘算法研究.ppt_第5页
第5页 / 共30页
点击查看更多>>
资源描述

1、基于Hadoop数据挖掘算法研究导师: 学生: 123课题的背景基于Hadoop平台的Canopy-Kmeans并行算法课题总结4实验与结果分析相关概念 课题背景聚类算法及其分类Kmeans 算法Canopy 算法HadoopMapReduce聚类算法及其分类聚类是对点进行考察并按照某种距离测度将它们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间距离比较短,而不同簇中点之间距离较大。课题背景课题背景代表点 初始分类 分类是否合理 最终分类修改分类 NY聚类主要包括以下几个过程:数据准备、特征选择、提出、特征提取、聚类、聚类结果验证。动态的聚类过程步骤如下所示:课题背景Canopy 算法

2、是 McCallum提出的一种 、 、 不 准的聚类 法,是 对 数据 的一种 聚类算法。算法的 是: 算数据 距离 算法 度 的距离度 mec dsance, 数据分currency1一“分的,fi种fl之currency1 canopes。, 聚类中,比如 , 度 的度 距离,进一步 算,而使得数据 聚类”题 。KMeans算法是 Macueen 提出的,算法 , 相对, 多个学 。它是聚类算法中最的分 法,所的分 法是 一个包 n 个数据对 的数据,将数据分currency1 个,其中 个代表一个聚类,同一聚类中的对 相 度较 ,而不同聚类中的对 相 度较 。Hadoop Hadoop是

3、Apache 下 的分 算 以及 行分 理大 数据。Hadoop 最成“分是HDFS(Hadoop Distributed File System)MapReduce。课题背景课题背景pl pl pl Map Map Map Reduce Reduce pa pa npu Mappes Mddle ResulsReduces upuMapReduce 是一种 程 , 大 数据 大 的并行 算。概念Map Reduce ,是它们的主要 , 是数 程 的, 程 的特性。它极大地 便了 程人员 不会分 并行 程的情况下,将自己的程序 行 分 系 上。 当前的软件 是指 一个Map 数, 一键对 成一 的键对,指 并发的Reduce 数, 保证所 的键对中的 一个共享相同的键。MapReducecurrency1什么选择基Hadoop 的CanopyKmeans 并行算法?课题背景.随着大数据 代的到 同 硬件的提升也越越困” 导致 我们 机下 理大 数据遇到了前所未的阻力”度。. 的Kmeans算法 理 数据 效率 下、聚类质 差等弊端日益显露出,其 间 度较 且 理数据的能力存 局限性也尤currency1突出。3.基Hadoop 的CKmeans并行算法,算法 canopy算法改善Kmeans算法 初始聚类中的盲目性,并行 算 对算法并行扩展,使之能够适 对 数据理。课题背景

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 演示文稿

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。