1、第七章 统计学习理论的本质7.1 统计学习的本质n 系统 S为研究对象,通过一系列的观测样本来求得学习机 LM,使得 LM的输出 能够尽量准确的预测 S的输出 y。(x1,y1), (x2,y2), , (xn,yn)风险n 学习机 LM的输出 与输入 x之间可以看作是一个函数关系:n 一般需要将函数 限定在特定的一组函数 中求取。n 定义风险: 均方误差: 似然函数:期望风险n y与 x之间存在一定的依赖关系,可以用一个未知的联合概率 F(x,y)描述。n 期望风险定义为:n 统计学习的目的就是要寻找到一个最优的函数f(x,w*),使得 R(w*)最小。经验风险n 期望风险一般来说无法计算,
2、在工程上转而计算经验风险:n 求取最优参数 w*,使得经验风险 Remp(w*)最小。n 当学习过程具有一致性时,统计学有如下关系:期望风险与经验风险的关系7.2 函数集的 VC维与推广性的界n 统计学习的推广能力不仅同训练样本数 n有关系,而且同学习机的函数集选择有关系, “简单的 ”的函数集合推广能力强, “复杂 ”的函数集合推广能力差。n 当函数集过于 “复杂 ”时,很容易产生 “过学习 ”现象:对于训练样本风险很小,而对非训练样本风险却很大。过学习VC维n 打散:如果存在一个有 h个样本的样本集能够被一个函数集中的函数按照所有可能的 2h种形式分为两类,则称函数集能够将样本数为 h的样本集打散;n VC维:如果函数集能够打散 h个样本的样本集,而不能打散 h+1个样本的样本集,则称函数集的 VC维为 h。d维空间中线性函数的 VC维: h = d+1; 正弦函数集合 sin(wx)的 VC维: h = 。推广性的界n 函数集合的 VC维描述了函数的复杂程度,利用VC维可以确定推广性的界,下列不等式右半部分至少以概率 1-成立:其中 h为 函数集合的 VC维 , n为训练样 本数。n 当 n/h较 小 时 ,置信范 围较 大; n/h较 大 时 ,置信范 围较 小: