监督学习1 基本概念监督学习又称为分类(Classification)或者归纳学习(Inductive Learning)。几乎适用于所有领域,包括文本和网页处理。给出一个数据集D,机器学习的目标就是产生一个联系属性值集合A和类标集合C的分类/预测函数(Classification/Prediction Function),这个函数可以用于预测新的属性集合的类标。这个函数又被称为分类模型(Classification Model)、预测模型(Prediction Model)。这个分类模型可以是任何形式的,例如决策树、规则集、贝叶斯模型或者一个超平面。在监督学习(Supervised Learning)中,已经有数据给出了类标;与这一方式相对的是无监督学习(Unsupervised Learning),在这种方式中,所有的类属性都是未知的,算法需要根据数据集的特征自动产生类属性。算法用于进行学习的数据集叫做训练数据集,当使用学习算法用训练数据集学习得到一个模型以后,我们使用测试数据集来评测这个模型的精准度。机器学习的最基本假设是:训练数据的分布应该与测试数据的分布一致。