精选优质文档-倾情为你奉上1、 数据分类算法基本原理数据分类是数据挖掘中的一个重要题目。数据分类是指在已有分类的训练数据的基础上,根据某种原理,经过训练形成一个分类器;然后使用分类器判断没有分类的数据的类别。注意,数据都是以向量形式出现的,如。支持向量机是一种基于分类边界的方法。其基本原理是(以二维数据为例):如果训练数据分布在二维平面上的点,它们按照其分类聚集在不同的区域。基于分类边界的分类算法的目标是,通过训练,找到这些分类之间的边界(直线的称为线性划分,曲线的称为非线性划分)。对于多维数据(如N维),可以将它们视为N维空间中的点,而分类边界就是N维空间中的面,称为超面(超面比N维空间少一维)。线性分类器使用超平面类型的边界,非线性分类器使用超曲面。线性划分如下图:可以根据新的数据相对于分类边界的位置来判断其分类。注意,我们一般首先讨论二分类问题,然后再拓展到多分类问题。以下主要介绍二分类问题。2、 支持向量机分类的基本原理支持向量机是基于线性划分的。但是可以想象,并非所有数据都可以线性划分。如二