1、2015/5/24 数据挖掘 1第六章 分类n 什么是分类?什么是预测?n 关于分类和预测的问题n 用决策树归纳分类n 贝叶斯分类n 基于规则的分类n 模式评估与选择n 提高分类准确率技术n 用后向传播分类n 支持向量机n 惰性学习法n 其他分类方法n 基于分类的其他问题2015/5/24 数据挖掘 2分类和预测2015/5/24 数据挖掘 3分类 一个两步的过程过拟合 :在学习期间,可能包含了训练数据中的某些特定的异常,这些异常不在一般数据集中出现2015/5/24 数据挖掘 4分类过程( 1):建立模型2015/5/24 数据挖掘 5分类过程( 2):使用模型进行分类数据预测n 也是一个两
2、步过程n 要预测的属性值是一个连续值,而不是类标号n 预测器是一个映射或函数 y=f(x),其中X是输入,而输出 y是连续的或有序的值2015/5/24 数据挖掘 62015/5/24 数据挖掘 7有监督学习和无监督学习关于分类和预测的问题2015/5/24 数据挖掘 8获取数据预处理分类器设计 分类决策数据准备n 数据清理p 数据清理是为了减少噪声和处理缺失值n 相关性分析(特征选择)p 删除不相关属性和冗余属性n 数据变换p 概化和规格化2015/5/24 数据挖掘 9评估分类模型n 预测的准确率n 速率p 建立的时间p 使用模型的时间n 鲁棒性(健壮性)p 处理噪声和缺失值的能力n 可扩展性(可伸缩性)p 磁盘常驻数据库的效率2015/5/24 数据挖掘 10n 可解释性p 被模型证实的理解力和洞察力n 规则的优越性p 决策树的大小p 分类规则的简洁性