第3章分类与预测主要内容v分类与决策树概述v ID3、C4.5与C5.0v CART分类 VS. 预测v 分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势 的模型分类:v预测类对象的分类标号(或离散值)v根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据预测:v建立连续函数值模型v比如预测空缺值,或者预测顾客在计算机设备上的花费v 典型应用欺诈检测、市场定位、性能预测、医疗诊断v 分类是一种应用非常广泛的数据挖掘技术 v 分类与预测的区别:当估计的属性值是离散值时,这就是分类;当估计的属性值是连续值时,这就是预测。分类和预测-示例v分类银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分为“安全”和“有风险”两类)v我们需要构造一个分类器来预测类属编号,比如预测顾客属类v预测银行贷款员需要预测贷给某个顾客多少钱是安全的v构造一个预测器,预测一个连续值函数或有序值,常用方法是回归分析数据分类一个两步过程 (1)v 第一步,也成为学习步,目标是建立描述预先定义的数据类或概念集的分类器分类算法通过分析或从训练集“学习”