数据库与数据挖掘12.ppt

上传人:99****p 文档编号:1420357 上传时间:2019-02-25 格式:PPT 页数:52 大小:442.50KB
下载 相关 举报
数据库与数据挖掘12.ppt_第1页
第1页 / 共52页
数据库与数据挖掘12.ppt_第2页
第2页 / 共52页
数据库与数据挖掘12.ppt_第3页
第3页 / 共52页
数据库与数据挖掘12.ppt_第4页
第4页 / 共52页
数据库与数据挖掘12.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

1、第 12章 聚类分析一、 聚类的基本 概念又称为无监督学习,属于机器学习 。1. 定义: 聚类就是将数据对象集合根据其 相似性 进行分类的过程,同类对象相似性高,不同类的对象相似性小。 “物以类聚,人以群分 ”。 聚类就是根据数据对象之间的相似性,将 d维数据集 V划分成 C1, C2, , Ck的过程,其中, , Ci一般被称为类或 “簇 ”12. 传统的聚类算法一般分为: 基于划分的聚类算法; 基于密度的聚类算法; 基于层次的聚类方法; 基于网格的聚类算法; 基于模型的聚类算法。2( 1)基于划分的方法 (partitioning methods):给定一个有N个元组或者记录的数据集, 分

2、裂法 将构造 K个分组,每一个分组就代表一个聚类, KN。对于给定的 K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。使用这个基本思想的算法有: K-MEANS算法、 K-MEDOIDS算法、CLARANS算法;( 2) 层次法 (hierarchical methods):这种方法对给定的数据集进行层次式的分解,直到某种条件满足为止。初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个

3、条件满足为止。代表算法有: BIRCH算法、 CURE算法、 CHAMELEON算法等;3( 3) 基于密度的方法 (density-based methods):基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现 “类圆形 ”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN算法、 OPTICS算法、 DENCLUE算法等;( 4) 基于网格的方法 (grid-based methods):这种方法首先将数据空间划分成为有限个单元( cell)

4、的网格结构 ,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。代表算法有: STING算法、 CLIQUE算法、WAVE-CLUSTER算法;(5) 基于模型的方法 (model-based methods):基于模型的方法给每一个聚类假定一个模型,然后去寻找能个很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案。 43. 聚类过程1) 数据准备

5、: 包括特征标准化和降维 .2) 特征选择 : 从最初的特征中选择最有效的特征 ,并将其存储于向量中 .3) 特征提取 : 通过对所选择的特征进行转换形成新的突出特征 .4) 聚类 (或分组 ): 首先选择合适特征类型的某种距离函数 (或构造新的距离函数 )进行相似程度的度量 ; 而后执行聚类或分组 .5) 聚类结果评估 : 是指对聚类结果进行评估 .54. 聚类算法的要求 ( 1)可伸缩性( scalability)实际应用要求聚类算法能够处理大数据集,且时间复杂度不能太高 ( 2)能够处理不同类型的属性现实中的数据对象已远远超出关系型数据的范畴,比如空间数据、多媒体数据、遗传学数据、时间序

6、列数据、文本数据、万维网上的数据、以及目前逐渐兴起的数据流这些数据对象的属性类型往往是由多种数据类型综合而成的 ( 3)能够发现任意形状的簇6 ( 4)尽量减少用于决定输入参数的领域知识 ( 5)能够处理噪声数据及孤立点 ( 6)对输入数据记录的顺序不敏感 ( 7)高维性( high-dimensional)一个数据集可能包含若干个维高维数据空间距离公式失效。 ( 8)能够根据用户指定的约束条件进行聚类(有障碍物聚类) ( 9)聚类结果具有可解释性和可用性75. 聚类应用 在商务上,聚类能帮助市场分析人员发现不同的消费群体,并且用购买模式来刻画不同的消费群体的特征 在生物学上,聚类可以用来辅助研究动植物的分类,可以用来分类具有相似功能的基因 聚类还可以用来从空间数据库中识别出具有相似特征的空间对象; 聚类可以从保险公司的数据库中发现汽车保险中具有较高索赔概率的群体; 聚类可以用来分类万维网上不同类型的文档、或分析 web日志以发现特殊的访问模式等8二、相似性度量 用距离度量 用余弦夹角度量 用 Jaccard系数度量 自定义数据类型:布尔变量、类别型数据、序数型数据数值型数据91.距离计算10

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。