精选优质文档-倾情为你奉上一、 分类1.1 K-最近邻算法(K-NN)存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据与所述分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,选择样本数据集中的前k个相似的数据。最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。伪代码:对未知类别属性的数据集中的每个点依次执行以下操作:(1) 计算已知类别数据集中的点与当前点之间的距离;(2) 按照距离递增依次排序;(3) 选取与当前点距离最小的k个点;(4) 确定前k个点所在类别的出现频率;(5) 返回前k个点出现频率最高的类别作为当前点的预测分类。如图,平面有3个样本集将空间分为三类,输入新的数据点,使用欧拉距离来计算当前点与已知类别数据集中的点之间的距离,并选择K=5作为参数。在距离最近的5个特征点中,有4个点属于类别w1,1个点属于类别w2,因此分类器将输入点划分至w1类。