1、第五章 参数估计与非参数估计 参数估计与监督学习 参数估计理论 非参数估计理论 5-1 参数估计与监督学习贝叶斯分类器中只要知道先验概率,条件概率或后验概概率 P(i),P(x/i), P(i /x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计 P(i),P(x/i), P(i /x)一参数估计与非参数估计参数估计 :先假定研究的问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数。非参数估计: 不假定数学模型,直接用已知类别的学习样本的先验知识直接估计数学模型。二监督学习与无监督学习监督学习 :在已知类别样本指导下的学习和训练,参数估计和非参数估计
2、都属于监督学习。无监督学习 :不知道样本类别,只知道样本的某些信息去估计,如:聚类分析。5-2参数估计理论一最大似然估计假定: 待估参数 是确定的未知量 按类别把样本分成 M类 X1, X2, X3, X M其中第 i类的样本共 N个Xi = (X1,X2, X N)T 并且是独立从总体中抽取的 Xi中的样本不包含 (ij)的信息,所以可以对每一类样本独立进行处理。 第 i类的待估参数根据以上四条假定,我们下边就可以只利用第 i类学习样本来估计第 i类的概率密度,其它类的概率密度由其它类的学习样本来估计。1.一般原则:第 i类 样本的类条件概率密度:P(Xi/i)= P(Xi/i i) = P
3、(Xi/i)原属于 i类的学习样本为 Xi=(X1 , X2 ,X N,)T i=1,2,M求 i的最大似然估计就是把 P(Xi/i)看成 i的函数,求出使它最大时的 i值。 学习样本独立从总体样本集中抽取的 N个学习样本出现概率的乘积取对数 :对 i求导 ,并令它为 0:有时上式是多解的 , 上图有 5个解 ,只有一个解最大即 . P(Xi/i)2. 多维正态分布情况 已知 , 未知 ,估计 服从正态分布所以在正态分布时代入上式得所以这说明未知均值的最大似然估计正好是训练样本的算术平均。 , 均未知A. 一维情况 : n=1对于每个学习样本只有一个特征的简单情况:(n=1)由上式得即学习样本的算术平均样本方差 讨论:1.正态总体均值的最大似然估计即为学习样本的算术平均2.正态总体方差的最大似然估计与样本的方差不同,当 N较大的时候,二者的差别不大。B 多维情况: n个特征(学生可以自行推出下式)估计值: 结论 : 的估计即为学习样本的算术平均 估计的协方差矩阵是矩阵 的算术 平均( n n阵列, n n个值 )