ImageVerifierCode 换一换
格式:PPT , 页数:36 ,大小:501.50KB ,
资源ID:1420666      下载积分:12 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1420666.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(浙江大学王灿《数据挖掘》课程-分类和预测---副本.ppt)为本站会员(99****p)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

浙江大学王灿《数据挖掘》课程-分类和预测---副本.ppt

1、分类和预测分类 VS. 预测n 分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势 的模型q 分类:n 预测类对象的分类标号(或离散值)n 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据q 预测:n 建立连续函数值模型n 比如预测空缺值,或者预测顾客在计算机设备上的花费n 典型应用q 欺诈检测、市场定位、性能预测、医疗诊断分类和预测 -示例n 分类q 银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分为 “安全 ”和 “有风险 ”两类)n 我们需要构造一个分类器来预测类属编号,比如预测顾客属类n 预测q 银行贷款员需

2、要预测贷给某个顾客多少钱是安全的n 构造一个预测器,预测一个连续值函数或有序值,常用方法是回归分析数据分类 一个两步过程 (1)n 第一步,也成为 学习步 ,目标是建立描述预先定义的数据类或概念集的分类器q 分类算法通过分析或从训练集 “学习 ”来构造分类器。q 训练集由数据库元组(用 n维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类n 训练元组 :训练数据集中的单个元组q 学习模型可以用分类规则、决策树或数学公式的形式提供数据分类 一个两步过程 (2)n 第二步,使用模型,对将来的或未知的对象进行分类q 首先评估模型的预测准确率n 对每个测试样本,将已知的类标号和该

3、样本的学习模型类预测比较n 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比n 测试集要独立于训练样本集,否则会出现 “过分拟合 ”的情况第一步 建立模型训练数据集分类算法IF rank = professorOR years 6THEN tenured = yes 分类规则第二步 用模型进行分类分类规则测试集 未知数据(Jeff, Professor, 4)Tenured?监督学习 VS. 无监督学习n 监督学习(用于分类)q 模型的学习在被告知每个训练样本属于哪个类的 “指导 ”下进行q 新数据使用训练数据集中得到的规则进行分类n 无监督学习(用于聚类)q 每个训练样本的类编号

4、是未知的,要学习的类集合或数量也可能是事先未知的q 通过一系列的度量、观察来建立数据中的类编号或进行聚类数据预测的两步过程n 数据预测也是一个两步的过程,类似于前面描述的数据分类q 对于预测,没有 “类标号属性 ”q 要预测的属性是连续值,而不是离散值,该属性可简称 “预测属性 ”n E.g. 银行贷款员需要预测贷给某个顾客多少钱是安全的n 预测器可以看作一个映射或函数 y=f(X)q 其中 X是输入; y是输出,是一个连续或有序的值q 与分类类似,准确率的预测,也要使用单独的测试集准备分类和预测的数据n 通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性q 数据清理n 消除或减少噪声,处理空缺值,从而减少学习时的混乱q 相关分析n 数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确q 数据变换与归约n 数据可以通过规范化进行变换,将所给属性的所有值按比例进行缩放,使其落入一个较小的指定区间,例 0.0, 1.0( ANN和设计距离的度量方法中常用)n 可以将数据概化到较高层概念

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。