1、分类技术概论及前沿问题* 1知识管理与数据分析实验室主要内容主要内容* 知识管理与数据分析实验室 2数据分类技术概况1数据分类方法介绍2各种方法比较评述3分类技术前沿问题 人脸识别4数据分类的简含义我们都曾经有这样的经验,在人流攒动的电影院门口等待相约而至的朋友,通过找寻与识别,能够在人群中一下子发现熟悉的脸,其实这个过程就是一个数据分类的过程。相较于要发现的知识完全未知的无监督学习,数据分类是一种典型的有监督的机器学习方法,目的是从一组已知类别的数据中发现分类模型,以预测新数据的未知类别。* 知识管理与数据分析实验室 3* 知识管理与数据分析实验室 4用刚才我们提到的寻找朋友的过程举例,首先
2、从自己熟知的朋友身上提取特点, 比如 脸型、身材、穿着等,这就形成了一个简单的分类模型 。然后在电影院门前对每一个发现的陌生人进行判断, “ 是朋友 ” 或者 “ 不是朋友 ” ,从而对新数据进行了预测。 xx 分类技术的应用* 知识管理与数据分析实验室 5信用卡审批科学研究银行医疗商业图形处理有效性分析故障检测医疗诊断目标市场定位工 业数据分类技术 数据分类的过程* 知识管理与数据分析实验室 6一个完整的数据分类过程一般包括模型构造、模型测试和模型应用三个步骤,具体来说,我们可以将数据分成两个数据集,分别是训练集和测试集,用于模型构造和模型测试。整体的步骤说明如下。* 知识管理与数据分析实验
3、室 71模型构造在这个阶段,分析样本的类别和其具备的一些特征之间的依赖关系,并将这种关系用特定的模型表示出来 。2模型测试测试的过程是对测试数据依次进行检测,根据模型确定样本的类别,与实际类别相比较,相同即是结果正确 。3模型应用这个过程与模型测试基本相同,只是输入的数据是未知的,例如,在电影院门口观察陌生人,在其中寻找朋友。 数据分类的过程详解* 知识管理与数据分析实验室 8数据分类方法介绍2数据分类方法介绍1各种方法评述3分类技术前沿问题 人脸识别4 数据分类方法介绍现在我们使用的分类方法中比较常用的有决策树方法、神经网络方法、遗传算法、支持向量机,除此以外还有粗糙集理论以及贝叶斯分类等方
4、法, 上图详细列出了现阶段正在使用的各种分类方法,下面将对重要方法进行介绍。* 知识管理与数据分析实验室 9* 知识管理与数据分析实验室 10决策树分类法所谓 “ 决策树 ” ,顾名思义,它具有 树 状结构,根据层次的不同,节点分为根节点、内部节点和叶节点三类,每个节点对应一个样本集,根节点作为 “ 树根 ”,对应的是整个样本集,内部节点类似于树干 枝杈 ,对应样本子集,叶节点就相当于 树叶 了,对应一个类标志。根节点和内部节点含有一个对于样本属性的测试,根据测试的结果将样本集划分为两个或者多个子集,每个子集形成一个分支,由叶节点内的类标志来标识,就像树不断分散的枝杈茎叶一样,如 右 图所示。