1、第 5 章 贝叶斯统计葛鹏飞1、 贝叶斯统计学回顾定理 1:贝叶斯定理的形式如下:它让我们能够通过后验概率,在观测到 D 之后估计 w 的不确定性。贝叶斯定理右侧的量 由观测数据集 D 来估计,可以被看成参数向量)(pw 的函数,被称为似然函数(likelihood function)。它表达了在不同的参数向量w 下,观测数据出现的可能性的大小。在观察到数据之前,我们对参数的一些假设,通过先验分布 体现。)(p给定似然函数的定义,贝叶斯定理按照自然语言如下:2、几个问题的引入观察贝叶斯定理,在将贝叶斯方法用到统计问题以及更进一步的机器学习问题中,很直观的我们有以下问题需要考虑:(1)似然函数的
2、选择;(2)先验分布的选择;(3)在确定似然函数和先验分布之后,得到后验分布,如何根据后验分布做出统计推断以及决策;(4)如何评价我们的前三步的选择。之后我们将逐步解决以上四个问题。3、似然函数的选择前面的章节中,已经介绍过过拟合和欠拟合的概念:复杂的模型会导致过拟合,而简单的模型又会有欠拟合的忧虑。在贝叶斯方法中同样如此,似然函数包含着我们对数据 D 所了解的全部信息,合理的选择似然函数的形式,将直接影响模型的好坏,将这个问题称作贝叶斯模型选择。假设我们想比较 L 个模型 ,其中 i=1,.,L。Mi给定一训数据集 D,由贝叶斯定理,我们有模型的后验分布:先验分布让我们能够表达不同模型之间的
3、优先级,假设我们对任意一个模型都没有偏爱,我们发现关于模型分布正比于模型的似然函数,因此最大化后验分布等价于最大化似然函数。由此,我们引入模型证据的概念,或者称作边缘似然函数。下面给出相应定义:定义 2:(模型证据的定义)使用模型证据的概念,我们就可以进行贝叶斯模型选择,其中的合理性,有以下的近似结论:最大化模型证据的结果将使得我们选择一个复杂度适中的模型。关于这点将给出近似的证明,为便于理解,我们使用到如下两图:证明: )()(wPDP后 验MA先 验后 验P)(在 w 为 m 维的情况下,上式可写作: mMAPwD先 验后 验)(取对数可得: 先 验后 验PiMAPi ln),(ln)(l
4、n当 m 逐渐变大时,第一项似然函数会逐渐变小,但是第二项会逐渐变大,以此最大化模型证据涉及到第一项与第二项的权衡。最大化模型证据的结果将使得我们选择一个复杂度适中的模型。基于最小化模型证据,我们能选取到复杂度合适的模型,避免了交叉验证使得数据未被全部利用以及重复运算所带来的计算消耗。 4、先验分布的选择先验分布代表我们主观对参数的知识以及偏好,先验分布的选取方法主要分为以下几种:(1)主观的概率:主要依靠历史数据、专家意见得到先验分布;(2)无信息先验分布:假设我们对任意一个参数都没有偏爱,使先验分布对后验分布的影响尽可能的小;(3)共轭先验分布:使得参数的先验分布与后验分布有相同的内核;(
5、4)多层先验:寻找影响参数先验分布的参数。我们对后三种先验分布做简单的介绍:4.1 无信息先验分布在某些概率推断的应用中,我们可能有一些先验知识,可以方便地通过先验概率分布表达出来。例如,如果先验分布令变量的某些值的概率为零,那么后验分布也将会使那些值的概率为零,与后续的数据观测无关。但是,在许多情形下,我们可能对分布应该具有的形式几乎完全不知道。这时,我们可以寻找一种形式的先验分布,被称为无信息先验(noninformative prior)。这种先验分布的目的是尽量对后验分布产生尽可能小的影响(Jeffreys, 1946; Box and Tiao, 1973; Bernardo and
6、 Smith, 1994)。这有时被称为 “让数据自己说话”。无信息先验主要有以下几种组成:(1)位置参数的无信息先验为 1;(2)尺度参数的无信息先验为参数的倒数;(3)Jeffreys 先验分布:利用参数中的信息量确定无信息先验。4.2 共轭先验分布在第三章的介绍中,我们已经接触到了共轭先验分布,故此处不展开。4.3 多层先验分布当我们给先验分布一个先验分布时,就得到我们的多层先验分布,相应的贝叶斯模型称作多层贝叶斯模型:假设我们的多层贝叶斯有如上结构,由贝叶斯定理得如下公式: )(),(ppD由这两个分布我们可以计算出任意的边缘分布与条件分布。5、贝叶斯推断与贝叶斯决策5.1 贝叶斯推断
7、在之前的章节中,我们遇到了很多种不同的点估计,现在总结如下:5.2 贝叶斯决策在一个统计问题中,我们不仅要对其中的不确定性进行度量,还需要对相应的问题做出决策。我们假设一个问题中,有一个输入向量 x 和其输出 y,y 可以是回归问题中的目标也可以是分类问题中的标签。通过模型我们做出的决策为 a,在决策论中,我们定义度量 a 与 y 距离的损失函数,通过最小化期望损失函数做出相应的决策,常用的度量函数有 0-1 损失、L1 损失和 L2 损失。具体流程如下:(1)首先定义损失函数 L(y,a);(2)最小化期望损失:在贝叶斯决策中,我们需要考虑的是后验期望损失,定义如下:进一步以 0-1 损失、
8、L1 损失和 L2 损失,有以下结论:(1)后验众数最小化 0-1 损失;(2)后验期望最小化 L2 损失;(3)后验中位数最小化 L1 损失。最后,稍微提及拒绝选择的思想,在每个类别的后验概率相差不多的时候,我们允许模型不做选择,在给定拒绝选择的损失时,我们可以确定拒绝选择的边界(课后题 5.3)。6、ROC 曲线如何评价一个模型的好坏?我们建立模型之后,接下来就要去评估模型,确定这个模型是否有用。度量一个模型好坏的标准有很多,而度量的选择,取决于模型的类型和模型要解决的问题。这里,我们先介绍 ROC 曲线与 AUC 值。ROC 曲线广泛使用于 2 分类问题的模型评价,是很多不平衡数据的模型
9、最重要的评判标准,使用但不限于贝叶斯统计中:ROC 曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。在二分类问题中,分类结果有如下四种结果:预测1 0 合计实际 1 True Positive(TP ) False Negative(FN) Actual Positive(TP+FN)0 False Positive( FP) True Negative(TN)Actual Negative(FP+TN)合计Predicted Positive(TP+FP)Predicted Negative(FN+TN)TP+FP+
10、FN+TN记 TP 为真阳、FN 为假负、FP 为假阳、TN 为真负。有以下的概念:精确度(Precision):P = TP/(TP+FP)反映了被分类器判定的正例中真正的正例样本的比重。准确率(Accuracy):A = (TP + TN)/(P+N) = (TP + TN)/(TP + FN + FP + TN),反映了分类器统对整个样本的判定能力能将正的判定为正,负的判定为负。 召回率(Recall),也称为 True Positive Rate:R = TP/(TP+FN) = 1 - FN/T,反映了被正确判定的正例占总的正例的比重。ROC 关注两个指标:True Positive
11、 Rate ( TPR )=TP/ TP + FN, TPR 代表将正例分对的概率;False Positive Rate( FPR )=FP/ FP + TN,FPR 代表将负例分错的概率。在 ROC 空间中,每个点的横坐标是 FPR,纵坐标是 TPR,这也就描绘了分类器在 TP(真正的正例)和 FP(错误的正例)间的 trade-off。在实际绘制 ROC 曲线的过程中,我们要不断的调整分类的阈值,从而计算出一系列的 TPR 和 FPR,以 TPR 为纵坐标、FPR 为横坐标绘制曲线。我们称 ROC 曲面下方的面积为 AUC 值,AUC 值越大,说明模型越好。下图为一个 ROC 曲线的例子: