浙江大学王灿《数据挖掘》课程-分类和预测---副本.ppt

上传人:99****p 文档编号:1420666 上传时间:2019-02-25 格式:PPT 页数:36 大小:501.50KB
下载 相关 举报
浙江大学王灿《数据挖掘》课程-分类和预测---副本.ppt_第1页
第1页 / 共36页
浙江大学王灿《数据挖掘》课程-分类和预测---副本.ppt_第2页
第2页 / 共36页
浙江大学王灿《数据挖掘》课程-分类和预测---副本.ppt_第3页
第3页 / 共36页
浙江大学王灿《数据挖掘》课程-分类和预测---副本.ppt_第4页
第4页 / 共36页
浙江大学王灿《数据挖掘》课程-分类和预测---副本.ppt_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、分类和预测分类 VS. 预测n 分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势 的模型q 分类:n 预测类对象的分类标号(或离散值)n 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据q 预测:n 建立连续函数值模型n 比如预测空缺值,或者预测顾客在计算机设备上的花费n 典型应用q 欺诈检测、市场定位、性能预测、医疗诊断分类和预测 -示例n 分类q 银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分为 “安全 ”和 “有风险 ”两类)n 我们需要构造一个分类器来预测类属编号,比如预测顾客属类n 预测q 银行贷款员需

2、要预测贷给某个顾客多少钱是安全的n 构造一个预测器,预测一个连续值函数或有序值,常用方法是回归分析数据分类 一个两步过程 (1)n 第一步,也成为 学习步 ,目标是建立描述预先定义的数据类或概念集的分类器q 分类算法通过分析或从训练集 “学习 ”来构造分类器。q 训练集由数据库元组(用 n维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类n 训练元组 :训练数据集中的单个元组q 学习模型可以用分类规则、决策树或数学公式的形式提供数据分类 一个两步过程 (2)n 第二步,使用模型,对将来的或未知的对象进行分类q 首先评估模型的预测准确率n 对每个测试样本,将已知的类标号和该

3、样本的学习模型类预测比较n 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比n 测试集要独立于训练样本集,否则会出现 “过分拟合 ”的情况第一步 建立模型训练数据集分类算法IF rank = professorOR years 6THEN tenured = yes 分类规则第二步 用模型进行分类分类规则测试集 未知数据(Jeff, Professor, 4)Tenured?监督学习 VS. 无监督学习n 监督学习(用于分类)q 模型的学习在被告知每个训练样本属于哪个类的 “指导 ”下进行q 新数据使用训练数据集中得到的规则进行分类n 无监督学习(用于聚类)q 每个训练样本的类编号

4、是未知的,要学习的类集合或数量也可能是事先未知的q 通过一系列的度量、观察来建立数据中的类编号或进行聚类数据预测的两步过程n 数据预测也是一个两步的过程,类似于前面描述的数据分类q 对于预测,没有 “类标号属性 ”q 要预测的属性是连续值,而不是离散值,该属性可简称 “预测属性 ”n E.g. 银行贷款员需要预测贷给某个顾客多少钱是安全的n 预测器可以看作一个映射或函数 y=f(X)q 其中 X是输入; y是输出,是一个连续或有序的值q 与分类类似,准确率的预测,也要使用单独的测试集准备分类和预测的数据n 通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性q 数据清理n 消除或减少噪声,处理空缺值,从而减少学习时的混乱q 相关分析n 数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确q 数据变换与归约n 数据可以通过规范化进行变换,将所给属性的所有值按比例进行缩放,使其落入一个较小的指定区间,例 0.0, 1.0( ANN和设计距离的度量方法中常用)n 可以将数据概化到较高层概念

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。