第5章 评估假设(Evaluating Hypotheses).ppt

上传人:da****u 文档编号:1101304 上传时间:2018-12-07 格式:PPT 页数:51 大小:531KB
下载 相关 举报
第5章 评估假设(Evaluating Hypotheses).ppt_第1页
第1页 / 共51页
第5章 评估假设(Evaluating Hypotheses).ppt_第2页
第2页 / 共51页
第5章 评估假设(Evaluating Hypotheses).ppt_第3页
第3页 / 共51页
第5章 评估假设(Evaluating Hypotheses).ppt_第4页
第4页 / 共51页
第5章 评估假设(Evaluating Hypotheses).ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

1、Date: *File: ML1.1Machine LearningPeng Kaixiang 2011. All rights reserved.Machine Learning for Control Engineering第 5章 评估假设(Evaluating Hypotheses)Date: *File: ML1.2Machine LearningPeng Kaixiang 2011. All rights reserved.Machine Learning for Control Engineering概述 对 假设的精度进行评估是机器学习中的基本问题 本章介绍用统计方法估计假设精

2、度,主要解决以下三个问题: 已知一个假设在有限数据样本上观察到的精度,怎样估计它在其他实例上的精度? 如果一个假设在某些数据样本上好于另一个,那么一般情况下该假设是否更准确? 当数据有限时,怎样高效地利用这些数据,通过它们既能学习到假设,还能估计其精度? 统计的方法,结合有关数据基准分布的假定,使我们可以用有限数据样本上的观察精度来逼近整个数据分布上的真实精度Date: *File: ML1.3Machine LearningPeng Kaixiang 2011. All rights reserved.Machine Learning for Control Engineering动机 对

3、学习到的假设进行尽可能准确地性能评估十分重要 为了知道是否可以使用该假设 是许多学习方法的重要组成部分 当给定的数据集有限时,要学习一个概念并估计其将来的精度,存在两个很关键的困难: 估计的困难 使用与训练样例和假设无关的测试样例 估计的方差 即使假设精度在独立的无偏测试样例上测量,得到的精度仍可能与真实精度不同。 测试样例越少,产生的方差越大 本章讨论了对学到的假设的评估、对两个假设精度的比较、两个学习算法精度的比较Date: *File: ML1.4Machine LearningPeng Kaixiang 2011. All rights reserved.Machine Learnin

4、g for Control Engineering学习问题的框架 有一所有可能实例的空间 X, 其中定义了多个目标函数,我们假定 X中不同实例具有不同的出现频率。一种合适的建模方式是,假定存在一未知的概率分布 D, 它定义了 X中每一实例出现的概率。 学习任务是在假设空间上学习一个目标概念,训练样例的每一个实例按照分布 D独立地抽取,然后连同正确的目标值提供给学习器。Date: *File: ML1.5Machine LearningPeng Kaixiang 2011. All rights reserved.Machine Learning for Control Engineering评

5、估假设的问题 给定假设 h和包含若干按 D分布抽取的样例的数据集,如何针对将来按同样分布抽取的实例,得到对 h的精度最好估计 这一精度估计的可能的误差是多少Date: *File: ML1.6Machine LearningPeng Kaixiang 2011. All rights reserved.Machine Learning for Control Engineering样本错误率和真实错误率 定义:假设 h关于目标函数 f和数据样本 S的样本错误率(标记为 errors(h)) 定义:假设 h关于目标函数 f和 分布 D的真实错误率(标记为 errorD(h))Date: *Fil

6、e: ML1.7Machine LearningPeng Kaixiang 2011. All rights reserved.Machine Learning for Control Engineering样本错误率和真实错误率( 2) 我们想知道的是假设的真实误差,因为这是在分类未来样例时可以预料到的误差。 我们所能测量的只是样本错误率,因为样本数据是我们知道的。 本节要考虑的问题是:样本错误率在何种程度上提供了对真实错误率的估计?Date: *File: ML1.8Machine LearningPeng Kaixiang 2011. All rights reserved.Machin

7、e Learning for Control Engineering离散值假设的置信区间 先考虑离散值假设的情况,比如: 样本 S包含 n个样例,它们的抽取按照概率分布 D, 抽取过程是相互独立的,并且不依赖于假设 h n=30 假设 h在这 n个样例上犯了 r个错误 根据上面的条件,统计理论可以给出以下断言: 没有其他信息的话,真实错误率 errorD(h)最可能的值是样本错误率 errorS(h)=r/n 有大约 95% 的可能性,真实错误率处于下面的区间内:Date: *File: ML1.9Machine LearningPeng Kaixiang 2011. All rights r

8、eserved.Machine Learning for Control Engineering举例说明 数据样本 S包含 n=40个样例,并且假设 h在这些数据上产生了 r=12个错误,这样样本错误率为 errorS(h)=12/40=0.3 如果没有更多的信息,对真实错误率 errorD(h)的最好的估计即为 0.3 如果另外收集 40个随机抽取的样例 S, 样本错误率errorS(h)将与原来的 errorS(h)存在一些差别 如果不断重复这一实验,每次抽取一个包含 40样例的样本,将会发现约 95% 的实验中计算所得的区间包含真实错误率 将上面的区间称为 errorD(h)的 95%

9、置信区间估计Date: *File: ML1.10Machine LearningPeng Kaixiang 2011. All rights reserved.Machine Learning for Control Engineering置信区间表达式的推广 常数 1.96是由 95% 这一置信度确定的 定义 zN为计算 N% 置信区间的常数(取值见下页),计算 errorD(h)的 N% 置信区间的一般表达式(公式 5.1)为: 可以求得同样情况下的 68% 置信区间,从直觉上可以看出 68% 置信区间要小于 95% 置信区间,因为减小了要求 errorD(h)落入的概率confidencelevel 50% 68% 80% 90% 95% 98% 99%z-score 0.67 1.00 1.28 1.64 1.96 2.33 2.58

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。