1、1、分类和预测的基本概念、分类和预测的基本概念2、常用分类方法、常用分类方法3、预测方法、预测方法4、分类法的准确性、分类法的准确性第七章第七章 分类与预测分类与预测数据库内容丰富,蕴涵大量信息,可以用于数据库内容丰富,蕴涵大量信息,可以用于作出智能的商务决策。作出智能的商务决策。 分类分类 和和 预测预测 是两种数据分是两种数据分析形式,可以用于提取描述重要数据类的模型或析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。预测未来的数据趋势。 分类分类 是预测分类标号(离是预测分类标号(离散值),散值), 预测预测 建立连续值函数模型。建立连续值函数模型。第七章第七章 分类与预测分
2、类与预测 许多分类和预测方法被机器学习、专家系统、统计学许多分类和预测方法被机器学习、专家系统、统计学和神经生物学方面的学者提出;和神经生物学方面的学者提出; 分类和预测的大部分算法是内存驻留算法,通常假设分类和预测的大部分算法是内存驻留算法,通常假设数据量较小;数据量较小; 可伸缩的分类和预测技术,能够处理大量的驻留磁盘可伸缩的分类和预测技术,能够处理大量的驻留磁盘的数据;的数据; 数据分类的基本技术有:判定树归纳、贝叶斯分类、数据分类的基本技术有:判定树归纳、贝叶斯分类、贝叶斯网络、神经网络等;贝叶斯网络、神经网络等; 预测的方法主要有:线性的、非线性的、广义线性回预测的方法主要有:线性的
3、、非线性的、广义线性回归。归。第七章第七章 分类与预测分类与预测第一节第一节 分类和预测的基本概念分类和预测的基本概念1、 数据分类(数据分类( data classification)数据分类是一个两步的过程:数据分类是一个两步的过程: 学习:用分类算法分析训练数据;学习:用分类算法分析训练数据; 分类:测试数据用于评估分类规则的准确率。分类:测试数据用于评估分类规则的准确率。 第一节第一节 分类和预测的基本概念分类和预测的基本概念1、 数据分类数据分类学习学习 :建立一个模型,描述预定义的数据类:建立一个模型,描述预定义的数据类集或概念集。集或概念集。 通过分析由属性描述的通过分析由属性描
4、述的 数据库元组数据库元组 来构造来构造 模型模型 。 假设每个元组属于一个预定义的类,由一个称作假设每个元组属于一个预定义的类,由一个称作 类标类标号属性号属性 的属性确定。的属性确定。 对于分类,数据元组也称为对于分类,数据元组也称为 样本样本 、 实例实例 或或 对象对象 。 为建立模型而被分析的数据元组形成为建立模型而被分析的数据元组形成 训练数据集训练数据集 。 训练数据集中的单个元组称作训练数据集中的单个元组称作 训练样本训练样本 ,随机从样本,随机从样本群中选取。群中选取。 第一节第一节 分类和预测的基本概念分类和预测的基本概念1、 数据分类数据分类学习学习 过程:过程:name
5、 age income credit_ratingliwei 35 Med fairzhaojing 2435 high excellent 训练数据分类算法分类规则If age=“2435” andIncome=highthencredit_rating=excellent第一节第一节 分类和预测的基本概念分类和预测的基本概念1、 数据分类数据分类分类分类 :使用模型进行分类。首先评估分类模:使用模型进行分类。首先评估分类模型的预测准确率。型的预测准确率。 保持方法保持方法 是一种使用类标号样本测试集的简是一种使用类标号样本测试集的简单方法。单方法。 模型在给定测试集上的模型在给定测试集上的
6、 准确率准确率 是正确被模型是正确被模型分类的测试样本的百分比。分类的测试样本的百分比。第一节第一节 分类和预测的基本概念分类和预测的基本概念1、 数据分类数据分类分类分类 过程:过程:name age income credit_ratinglixing 35 high fairZhangli =23 Low fairhubin 2435 High excellent 测试数据分类规则( wangjia, 2435 , high)credit_rating?新数据excellent第一节第一节 分类和预测的基本概念分类和预测的基本概念2、 预测预测预测预测 :就是构造和使用模型评估无标号样本
7、:就是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间类,或评估给定样本可能具有的属性值或值区间。分类分类 和和 回归回归 是两类主要的预测问题:是两类主要的预测问题: 分类是预测分类是预测 离散离散 或或 标称值标称值 ,用预测法预测类,用预测法预测类标号为分类;标号为分类; 回归勇于预测回归勇于预测 连续连续 或或 有序值有序值 ,用预测法预测,用预测法预测连续值为预测。连续值为预测。第一节第一节 分类和预测的基本概念分类和预测的基本概念3、分类和预测方法的评估、分类和预测方法的评估分类和预测的方法可以根据下列标准比较和分类和预测的方法可以根据下列标准比较和评估:评估: 预测的准确性:正确预测新的类标号的能力;预测的准确性:正确预测新的类标号的能力; 速度:产生和使用模型的计算花费;速度:产生和使用模型的计算花费; 强壮性:对于给定噪声或具有空缺值数据,模型正确强壮性:对于给定噪声或具有空缺值数据,模型正确预测的能力;预测的能力; 可伸缩性:对于给定大量数据,有效构造模型的能力。可伸缩性:对于给定大量数据,有效构造模型的能力。 可解释性:学习模型提供的理解的层次。可解释性:学习模型提供的理解的层次。