精选优质文档-倾情为你奉上K-means聚类算法一、K-means聚类原理1.1 聚类算法的原理我们经常接触到的聚类分析,一般都是数值聚类,一种常见的做法是同时提取 N 种特征,将它们放在一起组成一个 N 维向量,从而得到一个从原始数据集合到 N 维向量空间的映射总是需要显式地或者隐式地完成这样一个过程,然后基于某种规则进行分类,在该规则下,同组分类具有最大的相似性。聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。比如上面的星星,聚类后结果是一个个星团,星团里面的点相互距离比较近,星团间的星星距离就比较远了。1.2 K-means聚类原理假设我们提取到原始数据的集合为(x1,x2, ,xn),并且每个xi为d维的向量(d维向量由原始数据的d个特征组成),K-means聚类的目的就是,在给定分类组数k(kn)值的条件下,将