1、似然比在天文研究参数估计中的应用张超、王燕平OUTLINE这篇文章是为了更好地理解该论文而写的阐述和补充,全文共分以下三章:第一章为背景介绍,包括天体物理的背景和统计学的一些概念总结;第二章为似然比的应用,主要是介绍该论文的内容;第三章为对一些问题的总结。Chapter *1* 背景介绍*1.1* 天体物理背景该文章写于上世纪 70 年代,因此当时的高能探测较当前而言有很大的不同,当时探测以及数据处理存在的问题主要有: 当观测的天体辐射强度较小时,探测器得到的光子计数少,因而一些统计方法失效 在用观测数据进行参数估计时,不同的方法对数据的要求不同,是否需要分组就是其中之一 偏差的非高斯分布也需
2、要用更为普适的统计学方法进行数据处理。*1.2*一些统计学上的概念(1)似然函数及极大似然估计似然函数定义为各个观测值概率密度的乘积:1()(;)NiiLxpx(1.1)若取似然函数的极大值,方便起见,通常对似然函数取对数,则似然方程变为:ln0L(1.2)(2) 2 量的总结在统计学中,把一些服从或渐近服从 2 分布的统计量称为 2 量,例如:样本 2量,不等精度样本 2 量,以及皮尔逊 2 量。 样本 2 量为: 21()(1)Niix:(1.3) 不等精度的样本 2 量为: 21()(1)Niix:(1.4) 皮尔逊 2 量为: 21()miiinE )1(2km(1.5) 2 量通常用
3、作参数估计和假设检验,不同的 2 量的应用范围不同:1. 用于假设检验的 2 量: 样本 2 量用作检验正态假设,不需要分组,检验结果比较精确 皮尔逊 2 量用作检验任意分布的假设,需要分组,对样本要求较高,需要大的样本 (如果不分组的话皮尔逊 2 量满足的分布依赖于数据自身的分布函数)2. 用作参数估计时:这里的讨论我们将在第三部分给出。 chapter*2* 似然比的应用*2.1* 似然比的定义若有 n 个样本 X1,.Xn,服从含有 p 个参量的分布: ,其中),.;(1PXfP,.1为待估计的参量,则似然比定义为:, 111max(;,)nTiqpi iifXL (2.1.1)其中固定
4、的参量为 q 个,变化的参量为 p-q 个。为简单起见,我们可以定义 C minmin()()TppC )(2q(2.1.2)其中 , inax2lTTpqpqPppPCmaxminl2*2.2* 似然比的具体应用泊松问题 泊松问题对于一个泊松分布的似然函数: , 利用上文提到过 C 的定义:1!iineNiiP12ln(lnl!)NiiiiCPe(2.2.1)C 可以当作似然函数作同样的应用:当 C 取极小时相当于似然函数取极大,因此可得到待估计的参数。由公式(2.1.2)可以来确定置信区间。 这里需要说明的是(2.2.1)可以简化为下面的形式:12lnNiiCEe(2.2.2)其中 ie
5、无分组的泊松问题: 正如第一章中提到的当时高能天体物理探测由于受到仪器的限制,通常在探测暗弱天体时只能得到很少的光子计数,此时如果按照通常的办法将原有的数据分组,就会造成一些组中的计数为零。在这种情况下,我们通常采用一种不需要分组的办法来解决这个问题。这里我们只给出结论:12(ln)iiCEI(2.2.3)其中 Ii 为单位时间、单位面积、单位频率的光子计数。 泊松的高斯极限 :比较(2.2.1)式与统计量 S 的定义可知,C 和 S 之间存在一种渐近关系。令 有 idne1idn()iSFn(2.2.4)其中,2()1(/)i ineSon项为 的函数,计算 和 时与其无关,可以被消去。这样
6、,每个)(iFi CSbin 的 S 有一个误差因子 ,只要有几个 bin 取空的时候 S 就会很不)/(i准确。所以,当每个 bin 中计数 n 低于 10-20 时,或者需要准确的置信度时,应用统计量 C 进行估计就变得很重要了。 参量相互独立时的简化如果独立参量具有可分离性,C 可以被简化。1212(;,)(;)(;)i iifxfxf:(2.2.5)1212121 12ln(;,)ln(;)ln(;)i i ii i iCfxfxfxC(2.2.6)独立参量可以进行独立分析,大大简化了计算量。*2.3* 参数估计中一些情况的应对高斯问题测量中最普遍的基本分布是 Gauss 分布。如果知
7、道每次测量的方差,就可以用S 进行估计。但是方差未知时,需要尝试其他的方法。 相对方差已知的情况:在方差已知的时候应用统计量 S(皮尔逊 2 量)就变得很便利,然而在相对方差已知但方差未知时我们可以应用另一个统计量 S(样本 2 量)进行参数估计并且确定置信区间。21()niiXe(2.3.1)其中 为第 i 次测量的标准偏差, 为相对误差。ii类似于似然比,我们同样可以引入比例: minminmin()()1()TpqppSSR(2.3.2)并且21(,)qnpRFqnp:(2.3.3)我们可以用 S 进行参数估计,并用 R 来确定置信区间。需要说明的是,在实际应用中通常使用21()niiX
8、eS(2.3.4)来代替 S。 方差可通过计算得出的情况我们把数据分成 N 组,每个组的方差为 ,对第 j 组进行 nj 次测量,则似然j函数可以写作:221()exp()jnNijijjijXeP(2.3.5)可以看出,只要求 的最小值就可以得出j211ln()jNjijijiCXe(2.3.6)置信区间的计算与前面所提到的方法相同。chapter*3* 关于一些问题的小结*3.1* 关于点估计方法的总结参数估计的点估计方法有很多,诸如矩法估计,贝叶斯估计,极大似然估计等,本文中和相关文献中提到并且进行比较的参数估计方法有: 利用极大似然函数估计,并用似然比确定置信区间点估计取 极小值Nii
9、XfPC);(ln2l置信区间利用似然比: minminTpqpC)(2q 利用皮尔逊 2 量做估计,并用 2 量极值之差确定置信区间点估计取:S= 极小值21()miiinE置信区间利用差值: )()()(2mininqpqpS 利用样本 2 量做估计,并用类似似然比的方法确定置信区间点估计取: 的极小值21()niiXeS置信区间利用类似似然比的比例: minminmin()()1()TpqppSRS2(,)qnpRFq:*3.2* 似然比方法的优势在上文中我们讨论了利用极大似然函数法进行点估计并且由似然比确定置信区间的方法,并对一些问题进行了讨论。这种参数估计的方法有这自己独特的优势: 更广的普适性:适用各种模型的参数估计,包含可以非正态的参数估计,包含线性和非线性的的参数估计,包括不分组情况下的参数估计 这种方法得到的误差棒更小 C 与 S 在近似的情况下有着相同的极限 C 与 S 的使用一样的便捷,甚至在一些计算中有自己的优势。参考文献Cash,W. AJ,228:939, 1979Cash,W. A&A,52,307 (1976)实验的数学处理,李惕碚,科学出版社,1980