1、2 方差、协方差与相关系数一、方差二、协方差三、相关系数四、矩一、方差例 1 例 1 比较甲乙两人的射击技术,已知两人每次击中环数分布为 :789016.:6789100124.问哪一个技术较好?首先看两人平均击中环数,此时 8E,从均值来看无法分辩孰优孰劣. 但从直观上看,甲基本上稳定在 8 环左右,而乙却一会儿击中 10 环,一会儿击中 6 环,较不稳定.因此从直观上可以讲甲的射击技术较好.上例说明:对一随机变量,除考虑它的平均取值外,还要考虑它取值的离散程度.称 -E为随机变量 对于均值 E的离差(deviation) ,它是一随机变量. 为了给出一个描述离散程度的数值,考虑用 ,但由于
2、 E=0 对一切随机变量均成立,即 的离差正负相消,因此用 是不恰当的. 我们改用 2E描述取值 的离散程度,这就是方差.定义 1 若 存在,为有限值,就称它是随机变量 的方差(variance),记作 Var ,Var= 2E(1)但 Var的量纲与 不同,为了统一量纲,有时用 Var,称为 的标准差(standard deviation).方差是随机变量函数 2E的数学期望,由1 的(5)式,即可写出方差的计算公式Var=2()d(xEFx=2()(),d.i iPxEp离 散 型, 连 续 型(2)进一步,注意到 2= 2= 2即有Var=22E. (3)许多情况,用(3)式计算方差较方
3、便些.例 1(续) 计算例 1 中的方差 Var与 Var.解 利用(3)式2E=iixP)(=720.1+820.8+920.1=64.2,Var= E=64.2- =0.2.同理, Var = 22= 65.2-64 = 1.2 Var, 所以 取值较 分散. 这说明甲的射击技术较好.例 2 试计算泊松分布 P()的方差.解 201!()!kkkkEee11()!()!kk200!jjj jee2所以 Var2.例 3 设 服从 a, b 上的均匀分布 U a, b,求 Var.解 2221d3baExab, Var2221321ba.例 4 设 服从正态分布 2,Na,求 Var.解 此
4、时用公式(2),由于 E,Var2()a22()/1()dxaxae2/dze222/ /zze22A.可见正态分布中参数 2就是它的方差, 就是标准差.方差也有若干简单而重要的性质. 先介绍一个不等式.切贝雪夫(Chebyshev)不等式 若随机变量的方差存在,则对任意给定的正数 ,恒有 2VarPE. (4)证 设 的分布函数为 Fx,则=| )(Exd2|()d(xEFx221()(F=Var/ 2.这就得(4)式.切贝雪夫不等式无论从证明方法上还是从结论上都有一定意义. 事实上,该式断言 落在 ,E与 ,内的概率小于等于 ar/ 2,或者说,落在区间 ,E内的概率大于 1-Var/2,
5、从而只用数学期望和方差就可对上述概率进行估计. 例如,取=3 Var,则2ar1ar3rPE0.89.当然这个估计还是比较粗糙的(当 ,N时,在第二章曾经指出, P(|-E|3 Var)=P(|- | 3)0.997 ).性质 1 =0 的充要条件是 P(=c) =1,其中 c 是常数.证 显然条件充分. 反之,如果 Var= 0,记 E= c, 由切贝雪夫不等式,P(|- |)=0对一切正数 成立. 从而Pc10clim1nPn.性质 2 设 c,b 都是常数,则Var(c+b)= 2Var. (5) 证 Var( c+b)=E( +b-E( +b) =E(c+b-c -b)2= 22= a
6、r.性质 3 若 c, 则 2Varc.证 因 ar=E 2- 2)(, 而 E(-c)=E-2c + 2,两边相减得 c20.这说明随机变量 对数学期望E的离散度最小.性质 4 1Var()ni= 1arni+2 nji jjii EE1 )(6)特别若 1,n 两两独立,则1Var()ni= 1arni. (7) 证 Var()1ni=E( ni1-E()1ni2=E niii12)(= E ni nji jjiiii E11 )()= 1Varnii+2 nji jjiiE1 )(,得证(6)式成立. 当 ,n 两两独立时,对任何 1ijn有 ijijE,故E )(jjii E=E( )
7、jiijjiji E=E jiji=0,这就得证(7)式成立.利用这些性质,可简化某些随机变量方差的计算.例 5 设 服从二项分布 B(n, p), 求 Var.解 如1 例 12 构造 i, 1 , 它们相互独立同分布,此时Var 22220)(pqEiii =pq.由于相互独立必是两两独立的,由性质 4Var1()ni1niiVarpq.例 6 例 6 设随机变量 ,n 相互独立同分布, iEa, Var i= 2,( 1,in ). 记 = i1, 求 , ar.解 由1 性质 2 和本节性质 2 和 4 有E1niia, Var21arnii2n.这说明在独立同分布时, 作为各 i的算
8、术平均,它的数学期望与各 i的数学期望相同,但方差只有 i的 1/ n 倍. 这一事实在数理统计中有重要意义.例 7 设随机变量 的期望与方差都存在, Var0. 令*arE,称它为随机变量 的标准化. 求 *与 Var *.解 由均值与方差的性质可知 *()0VarE, *()rr1ar.二、协方差数学期望和方差反映了随机变量的分布特征. 对于随机向量 1(,)n , 除去各分量的期望和方差外,还有表示各分量间相互关系的数字特征协方差.定义 2 记 i和 j的联合分布函数为 ),(yxFij. 若 ()()iijjEE,就称iijj()d(,)ijijxEyxy(8)为 ,ij的协方差 (
9、covariance),记作 Cov( ,ij).显然, Cov,ijVari.公式(6)可改写为Var(ni1) nii1+2 njijiCov1),(. )6(容易验证,协方差有如下性质:性质 1 Cov( ,) = Cov( ,) E. 性质 2 设 ,ab是常数,则Cov(,)bov(,)a. 性质 3 11(,),nni ii. 对于 n 维随机向量 = (,)n ,可写出它的协方差阵BEnnnbb 212112, (9)其中 Cov(,)ijijb.由性质 1 可知 B 是一个对称阵,且对任何实数 jt, 1, , 二次型nkjkjtb1, ,1()()njkjjkjtEE21()
10、0njjtE,即随机向量 的协方差阵 B 是非负定的.性质 4 设= 1(,)n , C =cnm1 ,则 C的协方差阵为 CB,其中 B 是 的协方差阵.因为 )(EE,所以 B的第 ,ij元素就是 C的第i 元素与第 j 元素的协方差.三、相关系数协方差虽在某种意义上表示了两个随机变量间的关系,但 Cov,的取值大小与 ,的量纲有关. 为避免这一点,用 ,的标准化随机变量(见例 7)来讨论.定义 3 称r=Cov(,)()VarE(10)为 , 的相关系数(correlation coefficient).为了讨论相关系数的意义,先看一个重要的不等式.柯西 许瓦茨(Cauchy Schwa
11、rz)不等式 对任意随机变量 , 有 22E. (11)等式成立当且仅当存在常数 0t使1P. (12)证 对任意实数 t222 ()uEttE是 t的二次非负多项式,所以它的判别式22()0,证得(11)式成立. (11)式中等式成立当且仅当多项式 ()ut有重根 0t,即200()utEt.又由(3) 200Vartt,故得 0Vart,同时有 E. 所以由方差的性质 1 就证得1P,此即 (12)式.由此即可得相关系数的一个重要性质.性质 1 对相关系数 r有 1. (13)r=1 当且仅当1VarrEP;r=-1 当且仅当1VarrEP. (14)证 由(11)式得 2arVr,证得(
12、13)式成立. 证明第二个结论. 由定义*E. 由柯西-许瓦兹不等式的证明可知, 1|r等价于 )(tu=22t有重根)2/(*0eEt= .*E因此由(12)式得 1r当且仅当 1)(*;1r当且仅当 .注 性质 1 表明相关系数 1r时, 与 以概率 1 存在着线性关系. 另一个极端是 r= 0,此时我们称 与 不相关(uncorrected).性质 2 对随机变量 和 , 下列事实等价:(1) Cov(, )=0; (2) 与 不相关;(3) E; (4) VararV.证 显然(1)与(2)等价. 又由协方差的性质 1 得(1)与(3)等价. 再由 )6(式,得(1)与(4)等价.性质
13、 3 若 与 独立,则 与 不相关.显然, 由 与 独立知(3)成立,从而 与 不相关. 但其逆不真.例 8 设随机变量 服从均匀分布 U 0, 2, =cos, in,显然21, 故 与 不独立. 但cos E201csd0,20in=i,201cosicosind02E,故 Cov,=0 E,即 与 不相关.注 性质 2 不能推广到 3n个随机变量情形. 事实上从 3n个随机变量两两不相关只能推得 11Var()ariii,不能推得 11nnEE . 反之,从这两个等式也不能推得 ,n 两两不相关. 具体例子不列出了. 对于性质 3, 在正态分布情形,独立与不相关是一致的,这将在下面进行讨
14、论.例 9 设(, )服从二元正态分布 21,;,Nabr, 试求 Cov,和 r.解 Cov,()(,)dxypxy 2222 11 ()=()e d()abyabrxyrr ,令 12xaybz, 2yt, 则 1xazt, 12(,)xJzt,于是 Cov,22/(1)/12()dzrtztrezr=2/12dte2/(1)21zrer+2 2/ /(1)12 dt zrr = 0+r 21.故得Cov(,)Varr.这就是说二元正态分布中参数 r 就是 , 的相关系数. 所以对二元正态分布,、 不相关等价于 r = 0. 但在第二章已证 与 相互独立等价于 r = 0. 这样我们有性质 4 对二元正态分布,两个分量不相关与相互独立是等价的.