(EM算法)TheEMAlgorithmEM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1.Jensen不等式frr(_x)0回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函H0fr,(_x)0H0数。当x是向量时,如果其hessian矩阵H是半正定的(),那么f是凸函数。如果或者,那么称f是严格凸函数。Jensen不等式表述如下:如果f是凸函数,X是随机变量,那么/(=f(EX)p(x=EXJ=1特别地,如果f是严格凸函数,那么当且仅当-一,也就是说X是常量。这里我们将-简写为-。如果用图表示会很清晰:图中,实线f是凸函数,X是随机变量,有0.5的概率是a,有0.5的概率是bo(就像掷硬币一样)。X的期望值就是a和b的中值了,图中可以看到