1、张学工模式识别教学课件Xuegong Zhang, Tsinghua University 1第三章 概率密度函数的估计张学工模式识别教学课件Xuegong Zhang, Tsinghua University 23.1 引言贝叶斯决策: 已知 和 ,对未知样本分类(设计分类器))(iP)|(ipx实际问题: 已知一定数目的样本,对未知样本分类(设计分类器)怎么办? 一种很自然的想法: 首先根据样本估计 和 ,记 和)|(ipx)(iP)|(ipx)(iP 然后用估计的概率密度设计贝叶斯分类器。(基于样本的)两步贝叶斯决策 张学工模式识别教学课件Xuegong Zhang, Tsinghua
2、University 3希望:当样本数 时,如此得到的分类器收敛于理论上的最优解。N为此, 需 )|()|( iNi ppxx ii PP重要前提: 训练样本的分布能代表样本的真实分布,所谓 i.i.d 条件 有充分的训练样本本章讨论内容: 如何利用样本集估计概率密度函数?估计概率密度的两种基本方法: 参数方法 (parametric methods) 非参数方法 (nonparametric methods)张学工模式识别教学课件Xuegong Zhang, Tsinghua University 4基本概念参数估计(parametric estimation): 已知概率密度函数的形式,只
3、是其中几个参数未知,目标是根据样本估计这些参数的值。几个名词:统计量(statistics):样本的某种函数,用来作为对某参数的估计参数空间(parametric space):待估计参数的取值空间 估计量(estimation): ),(21Nxx张学工模式识别教学课件Xuegong Zhang, Tsinghua University 53.2 最大似然估计 (Maximum Likelihood Estimation)假设条件: 参数 是确定的未知量, (不是随机量) 各类样本集 , 中的样本都是从密度为 的总体中独立抽取出iXc,1 )|(ipx来的, (独立同分布,i.i.d.) 具
4、有某种确定的函数形式,只其参数 未知)|(ipx 各类样本只包含本类分布的信息其中,参数 通常是向量,比如一维正态分布 ,未知参数可能是 , ),(21iN2iii此时 可写成 或 。)|(ipx),|(ipx)|(ipx张学工模式识别教学课件Xuegong Zhang, Tsinghua University 6鉴于上述假设,我们可以只考虑一类样本,记已知样本为 Nxx,21X似然函数(likelihood function) )|()|,()|()( 121 iNiNxpxxppl X 在参数 下观测到样本集 的概率(联合分布)密度 X基本思想:如果在参数 下 最大,则 应是“最可能”的参
5、数值,它是样本集的)(l函数,记作 。称作最大似然估计量。)(,(21XdxxdN为了便于分析,还可以定义对数似然函数 。)(ln)(H张学工模式识别教学课件Xuegong Zhang, Tsinghua University 7求解:若似然函数满足连续、可微的条件,则最大似然估计量就是方程或 0/)(dl 0/)(dH的解(必要条件) 。若未知参数不止一个,即 ,记梯度算子Ts,21Ts,21则最大似然估计量的必要条件由 S 个方程组成: 0)(H张学工模式识别教学课件Xuegong Zhang, Tsinghua University 8讨论: 如果 或 连续、可微,存在最大值,且上述必要
6、条件方程组有唯一解,)(l)(H则其解就是最大似然估计量。 (比如多元正态分布) 。 如果必要条件有多解,则需从中求似然函数最大者 若不满足条件,则无一般性方法,用其它方法求最大(见课本均匀分布例)张学工模式识别教学课件Xuegong Zhang, Tsinghua University 9 正态分布下的最大似然估计示例以单变量正态分布为例, ,T,211222exp2)|(xxp样本集 Nxx,21X似然函数 )|()|()(1kkxppl X张学工模式识别教学课件Xuegong Zhang, Tsinghua University 10对数似然函数 )|(ln)(ln)(1kNkxPxH最大似然估计量 满足方程 0)|(ln)(1 kNkxp而 2122 )(1ln1)|(ln kk xxp