第七章统计学习理论的本质ppt.ppt

资源描述

1、第七章统计学习理论的本质7.1 统计学习的本质n 系统 S为研究对象，通过一系列的观测样本来求得学习机 LM，使得 LM的输出能够尽量准确的预测 S的输出 y。(x1,y1)， (x2,y2)，， (xn,yn)风险n 学习机 LM的输出与输入 x之间可以看作是一个函数关系：n 一般需要将函数限定在特定的一组函数中求取。n 定义风险：均方误差：似然函数：期望风险n y与 x之间存在一定的依赖关系，可以用一个未知的联合概率 F(x,y)描述。n 期望风险定义为：n 统计学习的目的就是要寻找到一个最优的函数f(x,w*)，使得 R(w*)最小。经验风险n 期望风险一般来说无法计算，

2、在工程上转而计算经验风险：n 求取最优参数 w*，使得经验风险 Remp(w*)最小。n 当学习过程具有一致性时，统计学有如下关系：期望风险与经验风险的关系7.2 函数集的 VC维与推广性的界n 统计学习的推广能力不仅同训练样本数 n有关系，而且同学习机的函数集选择有关系， “简单的 ”的函数集合推广能力强， “复杂 ”的函数集合推广能力差。n 当函数集过于 “复杂 ”时，很容易产生 “过学习 ”现象：对于训练样本风险很小，而对非训练样本风险却很大。过学习VC维n 打散：如果存在一个有 h个样本的样本集能够被一个函数集中的函数按照所有可能的 2h种形式分为两类，则称函数集能够将样本数为 h的样本集打散；n VC维：如果函数集能够打散 h个样本的样本集，而不能打散 h+1个样本的样本集，则称函数集的 VC维为 h。d维空间中线性函数的 VC维： h = d+1；正弦函数集合 sin(wx)的 VC维： h = 。推广性的界n 函数集合的 VC维描述了函数的复杂程度，利用VC维可以确定推广性的界，下列不等式右半部分至少以概率 1-成立：其中 h为函数集合的 VC维， n为训练样本数。n 当 n/h较小时，置信范围较大； n/h较大时，置信范围较小：

展开阅读全文

第七章 统计学习理论的本质ppt.ppt

第七章统计学习理论的本质ppt.ppt