1、,聚类的定义 假设样本集合为X,可将X划分为m个子集 ,其中:且同一类(或簇,cluster)中的样本较为相似,不同类中的样本不相似。聚类属于无监督学习。,一个简单例子,k-means clusteringK平均(K-means)聚类方法(见书本6.6.3节)initialize N,m,c1,c2,cm do classify N samples according to nearest ci recompute ci ,i=1,m until no change in ciReturn c1,c2,cm注意(1)簇的数量m需要预先指定。(2)c1,c2,cm为各个簇内样本的均值,其初始值通
2、过随机抽取m个样本产生。,基于准则函数的聚类算法1、准则函数通过准则函数可以对聚类结果的质量进行评估。c为预先指定的簇的数量。,2、准则函数取值的变化: 假设已给定一个划分,考虑两个簇Di、Dj,假设 。当 由Di移入Dj时,mj及Jj分别变为:,mi及Ji分别变为:因此,Je的变化量为:,3、聚类算法: Initialize N,c,m1,mc do randomly select a sample ( 获得 所属于的簇i) if then compute if for all j then transfer to Dk until no change in Je in N attempts return m1,m2,mc,聚类结果的分析与验证(1)采用某一算法对样本集进行聚类分析。(2)由专家对聚类结果进行分析与解释。 (3)采用不同算法或不同参数重复上述过程,直至得到一个满意的结果。,1、知识表示2、经典逻辑推理3、不确定性推理4、搜索原理及应用5、模式识别的基本理论方法(或应用)综述。6、模式识别系统的设计方法。7、神经网络分类器的应用或算法分析或综述。8、支持向量机的应用或算法分析或综述。9、决策树分类器的应用或算法分析或综述。10、聚类分析的应用或算法分析或综述。11、采用神经网络或决策树或支持向量机进行实 际分类器的设计,并采用实际样本进行测试。12、其它。,