R 聚类分析 Clustering Analysis 主讲人:吕朝晖 西北大学智能信息处理实验室目录 什么是聚类 距离度量方法 几种常见的聚类方法 练习概述 监督学习(supervised learning) 无监督学习(unsupervised learning) 半监督学习(Semi-Supervised Learning) 概述从给定的训练数据集中学习出一个函数(模型参数), 当新的数据到来时,可以根据这个函数预测结果 监督学习就是最常见的分类问题 监督学习的目标往往是让计算机去学习我们已经创建好 的分类模型 最典型的算法是KNN和SVM 监督学习(supervised learning)输入数据没有标记,也没有确定的结果 样 本数据类别 未知,需要根据样 本间 的相似性对样 本集 进 行聚类 非监督学习目标不是告诉计算机怎么做,而是让计算机 自己去学习怎样做 非监督学习(unsupervised learning )无监督学习的方法分为两大类: 基于概率密度函数估计的直接方法 基于样本间相似性度量的简介聚类方法:设法定出不同 类别的核心或初始内核,然后依据样本与核心之间的相 似