ImageVerifierCode 换一换
格式:PPT , 页数:25 ,大小:1.91MB ,
资源ID:297718      下载积分:10 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-297718.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(【人工智能】人工智能-6机器学习(3).ppt)为本站会员(您的****手)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

【人工智能】人工智能-6机器学习(3).ppt

1、人工智能Artificial Intelligence,主讲:鲍军鹏 博士西安交通大学电信学院计算机系电子邮箱:版本:2.0,6.4 统计学习,传统的统计学理论,即Fisher理论体系的前提条件已知准确的样本分布函数并且采样无穷多为 V. Vapnik提出小样本(有限样本)统计学习理论小样本统计学习理论基于对学习错误(过学习,overfitting)和泛化能力之间关系的定量刻画,不仅避免了对样本点分布的假设和数目要求,还产生了一种新的统计推断原理结构风险最小化原理。,6.4.1 统计学习理论,函数估计模型 (1)G表示产生器,用于产生输入向量x;(2)S表示被观测的系统或者称为训练器。训练器对

2、每个输入x产生相应的输出y,并且输入和输出遵从某个未知联合概率F(x,y);(3)LM表示学习机。学习机能够实现一定的函数集f(x,a),a,其中是学习参数集合,学习参数既可能是向量也可能是函数。不同的a值就决定了不同的学习函数。学习的问题就是从给定的函数集f(x,a),a中选择出能最好地逼近训练器响应的函数。,期望风险,损失的数学期望值就称为风险泛函(risk functional),也称为期望风险 。学习的目标就是最小化风险泛函R(a),即风险最小化问题 。,经验风险,实际问题中,联合概率F(x,y)是未知的,所以就无法用风险泛函直接计算损失的期望值,也无法最小化。于是实践中常用算术平均代

3、替数学期望,从而得到经验风险泛函当N时,经验风险Remp(a)才在概率意义下趋近于期望风险R(a)。传统的学习方法大多都是使经验风险最小化(Empirical risk minimization,ERM)。,小样本统计学习理论,即使样本数目很大,也不能保证经验风险的最小值与期望风险的最小值相近。所以统计学习理论就要研究在样本数目有限的情况下,经验风险与期望风险之间的关系。其核心内容包括一下4点:在什么条件下,当样本数目趋于无穷时,经验风险Remp(a)最优值趋于期望风险R(a)最优值(能够推广),其收敛速度又如何。也就是在经验风险最小化原则下的学习一致性条件。如何从经验风险估计出期望风险的上界

4、,即关于统计学习方法推广性的界。在对期望风险界估计的基础上选择预测函数的原则,即小样本归纳推理原则。实现上述原则的具体方法。例如支持向量机(Support vector machine,SVM)就是一个具体的方法。,VC维,VC维的直观定义:对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的2h种形式分开,则称函数集能够把h个样本打散。函数集的VC维就是它能打散的最大样本数目h。所谓打散就是不管全部样本如何分布,总能在函数集中找到一个函数把所有样本正确地分为两类。若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大。有界实函数的VC维可以通过用一定的阈值将它转化成指

5、示函数来定义。,实数平面的VC维,实际上n维超平面的VC维是n+1 。,定理6.2 对于Rn中的m个点集,选择任何一个点作为原点,m个点能被超平面打散当且仅当剩余点的位置向量是线性独立的。推论 Rn中有向超平面集的VC维是n+1。因为总能找出n+1个点,选择其中一个作为原点,剩余n个点的位置向量是线性独立的。但无法选择n+2个这样的点,因为在Rn中没有n+2个向量是线性独立的。VC维反映了函数集的学习能力VC维越大则学习机器越复杂,容量越大。线性函数的VC维等于其自由参数的个数。但是一般来说,函数集的VC维与其自由参数的个数不相同。实际上,影响学习机器推广性能的是函数集的VC维,而不是其自由参

6、数个数。这给我们克服“维数灾难”创造了一个很好的机会:用一个包含很多参数,但却有较小VC维的函数集为基础构造学习机器会实现较好的推广性。,结构风险,对于两类分类问题:指示函数集中的所有函数(包括使经验风险最小的函数),经验风险Remp(a)和期望风险R(a)之间以至少1-的概率满足如下关系: 它表明,在有限的训练样本下,学习机器的VC维越高,复杂性越高,则置信范围越大,从而导致真实风险与经验风险之间可能的差别越大。由以上结论可知,ERM原则在样本有限时是不合理的,结构风险最小化原则,在同一子集中置信界限相同;在每一个子集中寻找最小经验风险;最后在不同子集间综合考虑经验风险和置信界限,使得真实风

7、险最小。,6.4.2 支持向量机,采用了保持经验风险值固定而最小化置信界限的策略。 1线性可分数据的最优分类超平面 (w x)b=0最优分类超平面训练数据可以被无错误地划分并且每一类数据与超平面距离最近的向量距超平面之间的距离最大两类数据之间最近的距离称为分类边距(Margin)对于上式分类边距等于2/| w |最优超平面就是使分类边距最大的分类超平面,最优分类面,在线性可分情况下,求解最优超平面,需要求解下面的二次规划问题(最小化泛函)约束条件为不等式yi(w xi)b10,i=1,2,N,这个优化问题的解由下面拉格朗日函数的鞍点给出: 其中ai0为拉格朗日系数。L的极值点为鞍点,L求导可得

8、w*和a*:,此时原目标函数的对偶问题(最大化泛函)为 其约束条件为,这是一个不等式约束下的二次函数极值问题,且存在唯一解。根据Karush-Kuhn-Tucker (KKT)条件,这个优化问题的解必须满足:ai(yi(w xi)b1)=0,i=1,2,N 由于多数样本所对应的ai将为0,这些样本对于分类超平面根本没有作用。只有当ai不为0时才对分类超平面有用,这些不为0的ai所对应的样本就是支持向量。也就是说最优分类超平面只用支持向量就决定了,即,a*通过训练算法可显式求得。用支持向量样本又可以求得b*(阈值):其中,x*+1表示属于第一类的某个(任意一个)支持向量, x*-1表示属于另一类

9、的任意一个支持向量。最后基于最优超平面的分类规则就是下面的指示函数。,线性不可分数据,2线性不可分数据的最优分类超平面 引入非负松弛变量i0。 线性约束条件转化为 yi(w xi)b 1i,i=1,2,N 二次规划问题就变成 其中C被称为惩罚因子。通过改变惩罚因子可以在最大分类间隔和误分率之间进行折衷。求解这个二次优化问题的方法与在可分情况下几乎相同,只是约束条件有一点小变化,非线性数据,3非线性数据的最优分类超平面 非线性问题,SVM通过非线性变换把非线性数据映射到另一个高维空间(特征空间)。即对于线性不可分的样本xRd,作非线性变换:RdH,使得(x)H在特征空间H中是线性可分的。下面的问

10、题就转化成在高维空间H中求广义最优分类超平面的问题,也就是用最大边距法解决高维空间中的线性可分问题。,SVM解决思路,直接寻求非线性变换往往很复杂,一般很难实现。但是SVM巧妙地通过核函数(Kernel function)避开了这种分线性变换。用特征向量(x)代替输入向量x。令K(xi,xj)=(xi)(xj),K被称为核函数。根据泛函有关理论,只要一种核函数K(xi,xj)满足Mercer条件,那么它就对应某一变换空间中的内积。,支持向量机与核函数,在最优分类超平面中采用适当的核函数就可以实现某一非线性变换后的线性分类,而计算复杂度却没有增加。,6.4.3 核函数,思想:将样本空间的内积替换

11、成了核函数,而运算实际上是在样本空间中进行的,并未在特征空间中计算高维向量内积。条件满足Mercer条件的函数K(x,y)必定是核函数,也就是肯定存在着一个映射使得K(x,y)=(x)(y)。,Mercer条件,定理6.3(Mercer条件) 函数K(x,y)描述了某个空间中一个内积的充分必要条件是,对于任意给定的函数g(x),当 时,有,常用的核函数,多项式核函数(Polynomial kernel function) 径向基核函数(Radial basis function,RBF) Sigmoid核函数 并非任意的、c参数值都使Sigmoid函数满足Mercer条件。多项式核和径向基核总是满足Mercer条件的。核函数的线性组合仍然是核函数。,

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。