1、1贝叶斯统计课程设计班级:姓名:学号:2目录贝叶斯统计 .1目录 .2一、贝叶斯统计的意义 .3二、贝叶斯统计的基本思想 .4先验分布 .4后验分布 .5三、贝叶斯估计 .5点估计 .5区间估计 .6假设检验 .7四、贝叶斯估计应用实例 .83一、贝叶斯统计的意义贝叶斯统计起源于英国学者贝叶斯的一篇论文“论有关机遇问题的求解” 。在这篇论文中,他提出了著名的贝叶斯公式。又设参数 已知时,样本 x 的分布密度为 f(x|), 的先验密度为 (),则已知样本 Y 后,参数 的后验密度为h(|X) = (1)dxf)|(贝叶斯公式、参数 的后验密度公式(1)及贝叶斯假设构成了贝叶斯统计的起点。频率学
2、派进行统计推断时,依据两种信息:一是总体信息,即统计总体服从何种概率分布,例如总体服从正态分布。另一是样本信息,即从总体抽取的样本给我们提供的信息。贝叶斯学派则除以上两种信息外,还须利用先验信息,即在抽样(试验)之前有关总体分布的未知参数的信息。贝叶斯学派受到的批评集中于以下两点:1)参数日看成是随机变量是否合适;2)先验分布是否存在,如何确定。贝叶斯统计在参数的点估计、区间估计及假设检验方面形成了与频率统计相平行的理论方法,并赋予统汁推断以新的解释”,它在可靠性方面有着成功的应用。贝叶斯分析与统计决策论也是难以分开的,贝叶斯统计具有简洁实用的特点。贝叶斯方法的关键是先验分布的确定。由于现实世
3、界中的事物的发生常不具备大量可重复性,事件发生的概率较难具有频率解释,而又面临解决问题,这导致主观概率、先验分布的提出,试图通过科学的思维活动来弥补经验的4不足,再利用样本 X 调整先验分布 ()为后验分布 h(|X),完成对参数目认识的再认识。二、贝叶斯统计的基本思想1、贝叶斯统计认为一些事件的概率在大量重复试验中去获得是不现实的,而我们可以根据对此事件的了解和积累的经验做出此事件发生可能性的判断。2、贝叶斯学派很注重先验信息的收集、挖掘和加工,使他们数量化成先验分布,参加到统计推断中,以此提高统计推断的质量。3、贝叶斯统计把任何一个未知的参数都看作是随机变量,都有不确定性,用一个概率分布去
4、描述这个未知的参数,在统计推断中只利用已经出现的数据,即样本信息,这就是贝叶斯统计中的“条件观点” 。4、贝叶斯的判断方法是在获得后验分布之后,可分别计算原假设 H0 和备择假设 H1 的后验概率。先验分布它是总体分布参数 的一个概率分布。贝叶斯学派的根本观点,是认为在关于 的任何统计推断问题中,除了使用样本 X 所提供的信息外,还必须对 规定一个先验分布,它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于 的先验信息的概率表述,先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。5后验分布根据样本 X 的分布 P 及 的先验分布 (),用概率论中求条件概
5、率分布的方法,可算出在已知 X=x 的条件下, 的条件分布 (|x)。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯学派认为:这个分布综合了样本 X 及先验分布()所提供的有关的信息。抽样的全部目的,就在于完成由先验分布到后验分布的转换。如上例,设 p=P(=1)=0.001,而(=1|x)=0.86,则贝叶斯学派解释为:在某甲的指标量出之前,他患病的可能性定为 0.001,而在得到 X 后,认识发生了变化:其患病的可能性提高为 0.86,这一点的实现既与 X 有关,也离不开先验分布。计算后验分布的公式本质上就是概率论中著名的贝叶斯公式(见概率),这公式正是上面提到的贝叶斯 1763
6、 年的文章的一个重要内容。贝叶斯推断方法的关键在于所作出的任何推断都必须也只须根据后验分布 (X),而不能再涉及 X 的样本分布 P。三、贝叶斯估计 点估计后验分布 (|x)估计 的三种常用方法:使用后验分布的密度函数最大值点作为 的点估计的最大后验估计6使用后验分布的中位数作为 的点估计的后验中位数估计 使用后验分布的均值作为 的点估计的后验期望估计例、设总体为均匀分布 U(,+1), 的先验分布是均匀分布U(10,16).现有三个观测值:11.7,12.1,12.0 求 的后验分布。解: 参数 的先验分布为 ()= I6160总体 X 的条件分布为 P(X|)= I 1x有样本 X ,X
7、,X 的联合条件分布为 123P(x ,x ,x |)=I ,1x231则样本 X ,X ,X 和参数 的联合分布为123h(x ,x ,x ,)= I , = I ,1236,1x23160)3(x1)(x,160可得样本 X ,X ,X 的边际分布为 123m(x ,x ,x )= I d= d=0.1 ,1236)3(x1)(x,1607.1.故参数 的后验分布为 (|x ,x ,x )= = I .123)(3,21xmh571.区间估计用数轴上的一段经历或一个数据区间,表示总体参数的可能范围.这一段距区间估计离或数据区间称为区间估计的置信区间。参数估计一般是指根据样本信息,对总体分布
8、中的未知参数 进行估计,而我们通常都是对均值或方差进行估计。区间估计是参数估计的一种,7它是指对于给定的置信度 1-,总体参数 的取值在某一区间内的概率是 1-,而这一置信区间正是我们需要求解的。从先验概率 P(h)、P(D)和 P(D|h)计算后验概率 P(h|D)的方法p(h|D)=P(D|H)*P(H)/P(D)随着 P(h)和 P(D|h)的增长而增长,随着P(D)的增长而减少,即如果 D 独立于 h 时被观察到的可能性越大,那么 D 对 h 的支持度越小。利用贝叶斯统计推断方法,给出了正态总体未知参数(期望、方差及其函数)的后验置信概率 1- 的区间估计.假设检验在贝叶斯统计的检验中
9、,先验信息的分布和参数的变化可以引起拒绝域的变化,而贝叶斯统计在后验均值估计的最基本特征是伸缩性。贝叶斯统计在检验问题中的一个优势在于多重检验问题。例如:在一次企业对 种生产方法的比较检验中,我们将假设设为: H :=0; H :0,012H 表示两种方法无显著差别,H 表示方法一优于方法二,H 表示方1 2法二优于方法一。8四、贝叶斯估计应用实例1、一个人打靶,打了 n 次,命中了 r 次,估计此人打靶命中的概率 。解:一般的估计方法是: =rn。当 n=r=l 时, =1;当n=r=100 时,仍有 =1。而实际上在这两种情况下,反映出的此人的射击水平是不一样的。依贝叶斯方法,n 次独立射
10、击,命中 r 次的概率为f(r|)=Cr n rnr)1(当对参数 一无所知时,可设 服从【O,l】上的均匀分布,由(1)得h(|r) = 0l10)(drnr取 关于其后验分布的期望 E(|r)去估计 ,得 的贝叶斯估计:=(r+1) (n+2)。此时,当 n=r=1 时, =23;当 n=r=100 时,有 =101102 。显然这个估计比 rn 要合理。2、以随机变量 代表某人群中个体的智商真值, 为第 i 个个i体的智商真值,随机变量 X 代表第 i 个个体的智商测验得分,若该i人群的期望智商为 ,则第 i 个个体在一次智商测验中的得分可以表示为:X = +e +e 其中 e 为第 i
11、 个个体的自然变异, e 为第 iijiji ij个个体第 j 次测量的测量误差。根据以往积累的资料,已知在某年龄的儿童的智商真值 N(100,225),个体智商测验得分 XN ( 9,100)。现在一名该年龄的儿童智商测验得分为 ll5,问:(1)该儿童智商真值是否高于同龄儿童的平均水平?(2)若取 在(a,b)为正常,问该儿童智商是否属于正常?解:在贝叶斯学派中,当 未知时,将其看作随机变量,与i 具有相同的分布,根据贝叶斯理论, 的先验分布是N(100,225),测验结果 X N(,100),儿童智商的后验分布为正态分布 N(11038,6923)。对第一问,同样设 H :l00, 查正态0分布表可以得到 P(H |X=115)=0.106,P(H |X=115)=O.8941根据风险最小原则拒绝 H ,接受 H 。01对第二问,设 H :ab,01查正态分布表可以分别得到 P(H |X=I15)和 P(H |X=I15),类似01第一问,依据风险最小原则做出推断。